Sommaire
Introduction 9
Chapitre 1 : Classification non supervisée 25
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.2 Approches hiérarchiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.2.1 DIANA : DIvisive ANAlysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.2.2 AGNES : AGglomerative NESted clustering . . . . . . . . . . . . . . . . . . . 28
1.3 Approches partitives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.3.1 Approches basées sur les prototypes . . . . . . . . . . . . . . . . . . . . . 30
1.3.1.1 KM : les K-moyennes . . . . . . . . . . . . . . . . . . . . . . . . 30
1.3.1.2 SC : clustering spectral . . . . . . . . . . . . . . . . . . . . . . . . 32
1.3.2 Approches basées sur la densité . . . . . . . . . . . . . . . . . . . . . . . . 34
1.3.2.1 DBSCAN : clustering basé sur la densité . . . . . . . . . . . . . . 34
1.3.2.2 SOM : les cartes auto-organisatrices . . . . . . . . . . . . . . . . 35
1.4 Approches floues et probabilistes . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.4.1 FKM : les K-moyennes floues . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.4.2 EM : estimation d’un mélange de modèles par Espérance-Maximisation . . 39
1.5 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
1.5.1 Les liens entre familles d’algorithmes de clustering . . . . . . . . . . . . . 41
1.5.2 Le problème du nombre de groupes . . . . . . . . . . . . . . . . . . . . . . 42
1.5.3 Le problème de l’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . 43
1.5.3.1 Mesures basées sur l’énumération . . . . . . . . . . . . . . . . . 44
1.5.3.2 Mesures statistiques basées sur l’entropie. . . . . . . . . . . . . . 45
1.5.4 Le choix de la proximité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
1.5.5 Le choix de l’algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Chapitre 2 : Classification non supervisée multi-vues centralisée 49
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.2 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.3 Approches centralisées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.3.1 MVDBSCAN : DBSCAN multi-vues . . . . . . . . . . . . . . . . . . . . . . 53
2.3.2 COFC : clustering flou collaboratif . . . . . . . . . . . . . . . . . . . . . . . 54
2.3.3 FCPU : clustering flou dans les univers parallèles . . . . . . . . . . . . . . 56
2.3.4 MVADASOM : SOM multi-vues via les distances adaptatives . . . . . . . . 58
2.3.5 COMRAF*: champs aléatoires combinatoires de markov . . . . . . . . . . 61
2.3.6 COEM : estimation d’un modèle de mélange pour données multi-vues . . 63
2.4 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
2.4.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
2.4.2 COFKM : clustering flou multi-vues . . . . . . . . . . . . . . . . . . . . . . 66
6 SOMMAIRE
2.4.3 COKFKM : clustering flou multi-vues à noyaux . . . . . . . . . . . . . . . . 73
2.5 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
2.5.1 Données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
2.5.2 Protocole expérimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
2.5.3 Évaluation interne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
2.5.4 Évaluation externe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
2.6 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
2.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
Chapitre 3 : Classification non supervisée et intégration de connaissances 89
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.2 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.3 Approches par satisfaction des contraintes . . . . . . . . . . . . . . . . . . . . . . 92
3.3.1 COP-KMEANS : les K-moyennes sous contraintes . . . . . . . . . . . . . . . 92
3.3.2 CCHC : clustering semi-supervisé hiérarchique en lien complet . . . . . . . 94
3.3.3 SSEM : estimation d’un mélange de modèle semi-supervisé . . . . . . . . . 95
3.4 Approches par objectif pénalisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
3.4.1 PCKM : les K-moyennes contraintes pénalisées . . . . . . . . . . . . . . . 98
3.4.2 SSKM : les K-moyennes semi-supervisées . . . . . . . . . . . . . . . . . . 100
3.5 Approches par altération de la proximité . . . . . . . . . . . . . . . . . . . . . . . 101
3.5.1 LLMA : adaptation localement linéaire de la métrique . . . . . . . . . . . 101
3.6 Approches indépendantes de l’algorithme de clustering . . . . . . . . . . . . . . . 104
3.6.1 BC : BoostCluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
3.7 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
3.7.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
3.7.2 BOC : boosting de clustering . . . . . . . . . . . . . . . . . . . . . . . . . . 109
3.7.3 UZABOC et ADAUZABOC : boosting simple et adaptatif de clustering par
optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
3.8 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
3.8.1 Données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
3.8.2 Protocole expérimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
3.8.3 Évaluation interne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
3.8.4 Évaluation externe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
3.9 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
3.10 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
Chapitre 4 : Classification non supervisée collaborative 145
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
4.2 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
4.3 Approches de type ensemble de clusterings . . . . . . . . . . . . . . . . . . . . . . 149
4.3.1 Clustering consensus par ensemble de clusterings . . . . . . . . . . . . . . 149
4.3.2 Consensus de partitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
4.4 Approches collaboratives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
4.4.1 SAMARAH : système d’apprentissage multi-agents de raffinement automatique
de hiérarchies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
4.4.2 MOCLE : clustering d’ensemble multi-objectif . . . . . . . . . . . . . . . . 156
4.5 Approches alternatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
4.5.1 COALA : clustering hiérarchique alternatif . . . . . . . . . . . . . . . . . . 158
SOMMAIRE 7
4.5.2 ADFT : apprentissage de distance alternative . . . . . . . . . . . . . . . . 160
4.5.3 CAMI : estimation d’un mélange de modèles alternatifs . . . . . . . . . . 161
4.6 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
4.6.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
4.6.2 COBOC : boosting collectif et collaboratif pour la recherche de consensus . 166
4.6.3 ALTERBOC : boosting collectif et collaboratif pour la recherche d’alternatives170
4.7 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
4.7.1 Protocole expérimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
4.7.2 Évaluation interne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
4.7.3 Évaluation externe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
4.8 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
4.9 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
Conclusion et perspectives 209
Liste des tableaux 213
Table des figures 216
Liste des algorithmes 218
Bibliographie 221
Introduction
La classification non supervisée, ou clustering, est un thème de recherche majeur en apprentissage
automatique, en analyse et en fouille de données ainsi qu’en reconnaissance de
formes. Il fait partie intégrante de tout un processus d’analyse exploratoire de données permettant
de produire des outils de synthétisation, de prédiction, de visualisation et d’interprétation
d’un ensemble d’individus (personnes, objets, processus, etc.). L’objectif est, à partir de données
constituées d’un ensemble d’individus ou objets et d’une relation de proximité entre ceux-ci, de
construire des groupes d’individus homogènes dans le sens où :
– deux individus proches doivent appartenir à un même groupe ;
– deux individus éloignés doivent appartenir à des groupes différents.
Cette introduction a pour but de présenter de manière informelle la problématique à travers
différents problèmes survenant lors de l’élaboration de techniques visant à en apporter des
solutions. Ainsi seront présentés les fondements de toute approche de clustering, les données,
la proximité ainsi que les différents moyens de construire des groupes. Dans un second temps,
par l’intermédiaire d’applications, des problématiques spécifiques seront développées, problématiques
pour lesquelles ce travail de thèse propose des éléments de réponse.
Classification non supervisée
Les données
Le clustering, dans sa forme la plus classique, repose essentiellement et tout d’abord sur des
données. Ces données sont constituées d’un ensemble d’individus associées à une représentation.
FIGURE 0.1—Données désordonnées avant clustering (à gauche) et ordonnées après clustering (à droite).
10 SOMMAIRE
Dans l’exemple présenté en figure 0.1 correspondant à la photo du bureau légèrement désordonné
d’un doctorant en fin de thèse, plusieurs objets ou individus y sont disposés : livres, articles
de recherche, cours, fournitures de bureau, etc. Chacun de ces individus peut être muni
d’une représentation liée à notre perception visuelle de ceux-ci. On peut ainsi associer des attributs
de : largeur, longueur, épaisseur, couleur, présence ou non de texte, présence de dessins,
forme primitive (parallélépipède rectangle, ellipse, cylindre, etc.). Ainsi, nous pouvons dresser
une table non exhaustive des différents objets et de leurs propriétés.
identifiant
largeur
longueur
épaisseur
couleur
texte
dessins
forme
Livre 1 19 23 2,5 Noir 1 1 Rect.
Livre 2 16 24 2 Rouge 1 1 Rect.
Livre 3 14 22 1,3 Blanc 1 1 Rect.
Article 1 29,8 21 0,2 Blanc 1 0 Rect.
Article 2 29,8 21 0,2 Blanc 1 1 Rect.
Peluche 1 18 20 13 Roux 0 0 Ellipt.
Peluche 2 14 25 40 Camel 0 0 Ellipt.
Ciseaux 8 22 1 Argent 0 0 Triang.
Tasse 11 11 7,5 Multi. 0 1 Cylind.
Crayon 0,7 17 0,7 Vert 0 0 Cylind.
Nous pouvons noter que de premiers problèmes interviennent, notamment en ce qui concerne
l’intervalle des valeurs que peut prendre une propriété donnée pour un individu :
– celui-ci est-il fini (ensemble des dénominations de couleurs, ensemble des valeurs flottantes
mesurables exactement avec une règle) ou infini (ensemble des valeurs réelles) ?
un individu est-il rouge, ou à 85,67% rouge ? on parle de domaine de valeurs discret
dénombrable et de domaine indénombrable ou continu ;
– un individu est-il noir, ou noir et orange, mais à dominante noir ?, à 80% noir et 20%
orange ? on parle de mono-valuation ou de multi-valuation.
La proximité
La représentation permet de comparer différents profils d’individus. Cette idée de comparer
les individus correspond au second fondement clé de tout algorithme destiné à une tâche de
classification automatique : la mesure de proximité. À partir de la représentation construite dans
l’exemple, nos pouvons réfléchir à une notion de proximité entre deux individus.
Dans la grande majorité des cas, nous considérons que deux individus sont proches si, pour
chaque propriété présente dans la représentation, les valeurs de cette propriété pour ces individus
sont proches. Par exemple, ici, nous pouvons considérer que les trois livres sont proches au
sens de leur forme primitive, et que les ciseaux et le livre 3 sont proches au sens de l’épaisseur.
Nous pouvons faire l’hypothèse que l’ensemble des propriétés présentes dans la représentation
ne sont pas toutes utiles, ou certaines, moins que les autres. Cette hypothèse est présente dans
de nombreux travaux actuels en classification non supervisée, et vise à sélectionner les propriétés
les plus pertinentes, ou bien à réduire l’importance de celles qui sont les moins utiles ou
informatives. Quoi qu’il en soit, certaines combinaisons particulières de propriétés permettent
d’identifier plus facilement un groupe d’individus relativement aux autres, et peuvent avoir une
sémantique bien particulière ; ils portent le nom de concept. Ici un concept serait celui de volume
comprenant à la fois les propriétés de longueur, de largeur, et d’épaisseur.
SOMMAIRE 11
La mesure de proximité peut prendre diverses formes mais elle permet toujours de quantifier
la ressemblance ou dissemblance entre les individus. Ainsi, dans l’exemple, nous pouvons attribuer
une valeur numérique de proximité entre deux individus, en réalisant la somme des écarts
en valeur absolue des valeurs numériques pour les propriétés du concept volume :
proximit_e(Objet 1; Objet 2) = jval1(longueur) val2(longueur)j
+ jval1(largeur) val2(largeur)j
+ jval1(_epaisseur) val2(_epaisseur)j
où vali(P) correspond à la valeur prise par l’objet i pour la propriété P. De cette mesure, on
peut déduire l’application aux données suivante :
proximit_e(Livre 3; Ciseaux) = j14 8j + j22 22j + j1; 3 1j = 6; 3
proximit_e(Livre 2; Livre 3) = j16 14j + j24 22j + j2 1; 3j = 4; 7
Ainsi, on peut déduire des valeurs de proximité, que le livre 2 est plus proche du livre 3,
que celui-ci ne l’est des ciseaux. Cette conclusion est dressée à partir du fait que le choix du
calcul de la somme des différences en valeur absolue des valeurs de propriétés correspond à une
distance. Ainsi deux objets sont proches si ils sont à distance faible l’un de l’autre. D’autre choix
sont possibles pour définir une proximité, et peuvent avoir des comportements différents c’est le
cas des mesures de similarité. Les différents types de mesures de proximité sont catégorisées en
distances, dissimilarités, similarités, et écarts avec pour chacune, des propriétés mathématiques
spécifiques.
En général, le calcul de la mesure de proximité se fait en tenant compte de toutes les propriétés
des individus. Plusieurs problèmes se posent alors :
– comment établir une distance entre deux valeurs non numériques pour une propriété ? la
distance entre Roux et Noir est-elle la même qu’entre Roux et Camel ?
– il existe plusieurs façons de calculer une proximité, quelle mesure choisir ? laquelle est la
plus adaptée ?
Enfin, il arrive parfois que la représentation des individus soit inconnue ou non accessible.
Dans ce cas, la mesure de proximité est connue pour chaque paire d’individus. On parle alors de
données relationnelles, par opposition aux données de l’exemple, dites vectorielles, car chaque
individu est décrit par un vecteur de valeurs correspondant aux propriétés. Une distinction existe
également au sein d’une représentation vectorielle selon les types associés aux valeurs de propriétés
(booléen, entier, flottant, chaîne de caractères, etc.). On parle alors de données numériques
(flottant, entier) ou symboliques (entier, chaîne de caractères, booléen).
La construction des groupes
Se fondant ainsi sur des données et une mesure de proximité quantifiant la ressemblance
ou la dissemblance entre les individus, nous pouvons désormais définir de manière informelle
la tâche du clustering comme le développement d’algorithmes capables de construire un ensemble
fini de groupes disjoints d’individus, ou clusters, de telle sorte que deux individus proches
(respectivement éloignés) soient dans un même groupe (respectivement dans des groupes différents).
La figure 0.1 présente ce à quoi ressemble un résultat de clustering, un ensemble de
groupes contenant des individus proches.
12 SOMMAIRE
Les groupes sont représentés ici par les piles d’individus (livres, articles, etc.) présentes sur
le bureau. Dans l’exemple, on trouve des piles ou paquets de livres, d’ustensiles de bureau, ou
de peluches, etc. Ainsi, le clustering revient à déplacer les individus de manière à ranger ceux-ci
en catégories typiques. Ceci est équivalent in fine à ne pas déplacer les individus mais à leur
attribuer à chacun l’étiquette de la catégorie leur correspondant. Ce clustering, ou processus
de construction des groupes, peut prendre diverses formes. Une approche peut être de séparer
en plusieurs tas dissemblables d’individus l’ensemble de tous les individus, ou bien de prendre
chaque individu comme un tas et de rapprocher les tas les plus similaires, et ce jusqu’à atteindre
un nombre de tas satisfaisant. Une autre manière consiste à identifier immédiatement un ensemble
de paquets homogènes d’individus de taille fixée, dans le sens où, dans chaque paquet,
les individus partagent un même ensemble de propriétés. Une correction peut alors être effectuée
en changeant l’étiquette de certains individus si l’on s’aperçoit que ceux-ci partagent plus
de propriétés avec les individus d’autres paquets. Ces éléments prennent régulièrement la forme
de paramètres associés au processus de construction des groupes.
Notons qu’après avoir choisi la mesure de proximité entre les individus, et la manière de
procéder à la construction des groupes, un praticien peut ne pas être satisfait du résultat produit.
Ainsi, si les groupes obtenus ne correspondent à ses attentes, il convient de remettre en cause le
choix de la mesure de proximité, ou les données en considérant :
– une incertitude et/ou une imprécision relative à la description, représentation des individus.
On parle de bruit dans les données, que l’on peut prendre en compte en conservant
la même mesure de proximité, mais en réduisant l’importance de certaines propriétés relativement
aux autres.
– l’existence de certains liens entre propriétés tels que les valeurs de ces propriétés soient
partagées de manière équivalente (ou au contraire différentes) par les individus d’un
même groupe. On parle ainsi de propriétés corrélées positivement, négativement, ou non
corrélées.
– l’existence d’individus éventuellement atypiques qui peuvent perturber le processus de
construction des groupes. Dans ce cas on peut envisager de les écarter dans un premier
temps, et de les réintégrer ou non ultérieurement.
Ainsi le processus d’analyse exploratoire de données est un processus non linéaire qui nécessite
d’introduire des boucles de rétroaction afin d’orienter le choix de la représentation des
individus et de la mesure de proximité entre ceux-ci (figure 0.2). Cette première analyse à visée
plutôt pédagogique avait pour but de présenter de manière informelle les différentes étapes
intervenant lors de l’analyse exploratoire de données classiques, ainsi que le cadre dans lequel
s’inscrit le processus de construction des groupes, central dans ce travail de thèse. Je vais maintenant
m’exercer à présenter le deuxième objet central dans ce travail de thèse, et qui concerne
la nature des données à analyser ou regrouper : la multiplicité des sources et des représentations
des données.
Représentation Proximité Clustering
Individus groupes
d'individus
FIGURE 0.2 — Schéma du processus d’analyse exploratoire des données concernant le clustering.
SOMMAIRE 13
La multiplicité des sources d’informations
Les données et les sources de données
Il est désormais possible, et fréquent, de disposer de plusieurs représentations pour un même
ensemble d’individus [Bickel and Scheffer, 2004]. Ainsi de nouveaux défis interviennent autour
de la construction de groupes d’individus désormais signifiés comme multi-représentés. La disponibilité
de plusieurs représentations offre naturellement la possibilité de multiples regroupements,
propres à chacune d’entre elles. Ce résultat peut permettre à un utilisateur d’avoir
plusieurs groupements utiles pour une interprétation variée des données, mais cette multiplicité
d’interprétations nécessite d’être contrôlée. Ainsi, selon la volonté pour un utilisateur d’avoir
un seul ou plusieurs regroupements des individus, l’ensemble des représentations de ceux-ci
devront être prises en compte, pour enrichir le processus de construction des groupes. Dans
l’exemple précédent, nous avons construit une représentation des individus présents sur le bureau
selon les propriétés que l’on pouvait déterminer à partir de notre perception visuelle de
ceux-ci. Or les mêmes individus peuvent naturellement être appréhender via d’autres modes
d’intéraction, comme le toucher. Ainsi nous pouvons construire une nouvelle représentation des
individus, en considérant ce nouveau capteur sensoriel ou sens :
identifiant
masse
épaisseur
texture
chaleur
forme
Livre 1 Lourd Moyen Lisse Froid Rect.
Livre 2 Moyen Moyen Lisse Froid Rect.
Livre 3 Léger Moyen Lisse Froid Rect.
Article 1 Très léger Très mince Lisse Moyen Rect.
Article 2 Très léger Très mince Lisse Moyen Rect.
Peluche 1 Léger Épais Poilu Moyen Ellipt.
Peluche 2 Léger Très épais Poilu Moyen Ellipt.
Ciseaux Léger Mince Lisse Très froid Triang.
Tasse Moyen Épais Rugueux Très froid Cylind.
Crayon Très léger Très mince Lisse Froid Cylind.
Nous pouvons définir une nouvelle mesure de proximité se fondant sur cette nouvelle représentation
des individus et déduire un regroupement supplémentaire, alternatif au premier. Nous
pouvons également envisager de regrouper les deux représentations en une seule et définir une
mesure de proximité générale, ou bien encore considérer une telle mesure de proximité générale
comme un mélange des deux mesures. Ainsi nous pouvons obtenir un seul regroupement
des individus déterminé par le choix d’une proximité définie à partir de toutes les représentations.
Nous pouvons également envisager d’obtenir ce regroupement en construisant localement
(grâce à chaque représentation ou vue des données) un ensemble de groupes en observant ceux
en construction dans les autres vues.
Notons que la définition d’une proximité mélangeant les différentes représentations, conjointe
à l’identification de concepts, ouvre quelques problèmes. Certains concepts peuvent être transversaux
à plusieurs représentation. Par exemple, un concept transversal ici pourrait être celui de
la masse volumique associées aux différents individus, car il fait intervenir le concept de volume
(identifié dans la première représentation) et la propriété de masse (présente dans la deuxième
représentation). Un autre problème peut concerner l’existence de propriétés communes et ainsi
excessivement corrélées comme la propriété d’épaisseur. On pourrait néanmoins envisager que
les valeurs diffèrent selon le capteur ou sens utilisé pour appréhender les individus. C’est le cas
14 SOMMAIRE
ici, pour l’attribut d’épaisseur. Ainsi, un problème majeur est celui de savoir quelle représentation
apporte le moins d’imprécision sur la mesure de cette propriété. Voilà quelques problèmes
complexes qui peuvent survenir lors de la prise en compte de plusieurs représentations simultanément.
Cette problématique est le thème majeur de ce travail de thèse qui concerne le développement
de méthodes de classification non supervisée adaptées aux données dans un contexte de
multiplicité des représentations. Avant de donner de plus amples détails sur les problématiques
qui interviennent, nous nous éloignerons de l’exemple pédagogique pour présenter concrètement
quelles sont les données types concernées par la multiplicité des sources et des représentations.
Les données multi-vues se retrouvent dans les diverses disciplines produisant de gigantesques
quantités de résultats d’analyses concernant des objets d’études particuliers : des gènes
pour les biologistes, des molécules pour les chimistes, des patients pour les médecins, etc.
Les données de la biologie. Dans le cadre de l’analyse du transcriptome, afin d’identifier
des gènes qui interviennent dans les mêmes processus biologiques, gènes dits co-régulés, les
bio-informaticiens analysent l’activité de ces gènes selon différentes conditions expérimentales
(correspondant chacune à une représentation des gènes). De plus, des informations supplémentaires
peuvent être extraites d’autres sources pour enrichir ces représentations dans un but par
exemple de reconstruction d’un réseau de régulation génétique [Yamanishi et al., 2004] :
– les localisations de différentes protéines (encodées par des gènes particuliers) dans des
régions intracellulaires ;
– les profils phylogénétiques d’organismes, qui contiennent chacun un ensemble de protéines.
Ainsi pour chaque protéine on peut obtenir l’information de présence/absence de
cette protéine dans chaque organisme ;
– les informations de compatibilités chimiques entre enzymes. L’hypothèse admise est qu’un
lien existe entre de telles enzymes si elles partagent au moins un de leurs composés.
On peut également joindre aux mesures d’expressions l’analyse de documents de la littérature
concernant ces gènes et constituer pour chacun d’eux un vecteur de termes apparaissant
dans les documents scientifiques [Zeng et al., 2010].
Les données de la médecine. Dans le domaine de la médecine, différentes sources de données
peuvent être intégrées dans un processus d’analyse complexe [Martin et al., 2006] :
– des données cliniques contiennent l’âge, le poids, le sexe pour un ensemble de patients,
ainsi que la taille et le stade de la tumeur, ainsi que diverses informations sur les ganglions
lymphatiques ou des résultats d’analyses de coupes histologiques ;
– des données catégorielles correspondent à une classification de la tumeur selon sa malignité
;
– des données issues de l’analyse de puces à ADN afin d’identifier les relations entres gènes
à partir de leurs expressions dans différentes tumeurs.
Les données du marketing. Dans le contexte du marketing, des informations sur un même
ensemble de clients sont disponibles à partir de différentes bases de données (banque, magasin,
administration, etc.). On considère ici qu’une compagnie puisse collecter des informations sur un
groupe de clients à partir de ces différentes bases pour constituer sa propre base de données. Les
différentes entités ne pouvant ainsi pas échanger directement des informations pour des raisons
de sécurité ou de confidentialité, les différentes données disponibles sont désignées comme
multi-vues, chaque vue correspondant à une source différente [Pedrycz, 2002].
SOMMAIRE 15
Les données multimédia. Les documents web, par leur nature, sont également des données
multi-vues [Bekkerman and Jeon, 2007]. Chaque page web peut être décrite selon :
– le vocabulaire textuel i.e. l’ensemble des mots pertinents apparaissant dans cette page ;
– le vocabulaire graphique i.e. l’ensemble des images présentes dans le document web ;
– le vocabulaire hypertextuel correspondant aux liens sortant de la page. Notons que l’on
peut obtenir également les liens entrant vers la page à partir d’un corpus de documents
web en étudiant les liens sortant de chacun.
Une analyse d’un ensemble de pages peut permettre de constituer des groupes de documents
à différents niveaux, afin d’offrir une organisation thématique de ces derniers. Chacun de ces
vocabulaires est alors une vue différente de l’ensemble des pages web.
Les données de reconnaissance de caractères. Les techniques d’apprentissage sont également
appliquées dans le domaine de la reconnaissance automatique de caractères manuscrits,
comme la reconnaissance de code postal sur une adresse. Ces techniques imposent la définition
d’une représentation des chiffres manuscrits. Une telle représentation peut être obtenue par des
techniques de traitement du signal comme la transformée de Fourier, mais elle peut être complétée
également par d’autres approches différentes capables de capturer une transformation
naturelle des individus (une rotation ou une translation) [van Breukelen et al., 1998]. L’utilisation
conjointe des différentes représentations permettent également de réduire globalement le
bruit.
De la forme des données
Dans la réalité portée par les applications, les données multi-représentées peuvent se présenter
de multiples manières. En effet, nous avons vu que parmi les cadres applicatifs majeurs
dans lesquels on trouve de telles données, l’aspect décentralisé ou distribué des données est très
présent et forme une caractéristique prégnante. Ces données multi-vues peuvent à la fois être
distribuées :
– selon des groupes de variables, une vue correspondant à un groupe de variables décrivant
un aspect nouveau sur l’ensemble des individus.
– selon des groupes d’individus, une vue est alors un échantillon particulier de l’ensemble
des individus.
– dans le cas général, à la fois selon les individus et selon les variables. Des recouvrements
peuvent exister entre les individus et les variables dans des vues différentes.
Ces différents cas sont présentés de manière schématique dans la figure 0.3. Dans cette thèse
les différentes techniques présentées et approches proposées s’attachent à traiter le premier cas.
C’est à dire où l’ensemble des individus (identique dans toutes les vues) est distribué selon des
groupes de variables.
De l’organisation intrinsèque des données multi-vues. Parmi les caractéristiques des données
multi-vues, relatives à l’existence d’une organisation en groupes des individus, on peut se
questionner sur la définition des groupes parmi l’ensemble d’individus, ainsi que les concepts
associés. Dans un cadre complètement non supervisé, on ne peut formuler que des hypothèses
sur la relative étendue des concepts présents parmi les différentes vues. Ainsi :
– chaque vue peut correspondre à un ensemble de descripteurs visant à exprimer un ensemble
de concepts semblables aux descripteurs des autres vues. En d’autres termes, les
organisations induites par chaque vue sont naturellement proches et on cherchera à faire
émerger la meilleur organisation globale des individus.
16 SOMMAIRE
Individus
variables
vue 1
vue 2
vue 3
Individus
variables
vue 1
vue 2
vue 3
Individus
variables
vue 1
vue 2
vue 3
vue 1
vue 2
vue 3
FIGURE 0.3 — Les types de données multi-vues. Dans l’ordre, ci-dessus, les données multi-vues décentralisées
selon les variables, selon les individus et selon les variables et les individus simultanément.
– chaque vue est constituée d’un ensemble de descripteurs visant à représenter un ensemble
de concepts indépendants des concepts existants dans les autres vues. Dans ce cas les
organisations locales naturelles sont différentes, et chaque groupe devrait n’être défini
uniquement dans une vue des données.
– dans le cas hybride : chaque vue exprime un ensemble de concepts et une partie des
concepts de chaque vue correspond à une partie des concepts présents dans toutes ou
partie des autres vues. Dans ce cas général les groupes sont identifiables en tenant compte
simultanément de l’ensemble des vues mais également de l’importance relative de chacune
d’entre elles dans la définition de chaque groupe.
Problématique et problématiques
La multiplicité est désormais très présente dans les communautés liées à la classification automatique
. Cette multiplicité concerne autant les données auxquelles les approches présentées
dans cette thèse tentent d’apporter des éléments d’analyse et de structuration, que les expertises
pouvant être établies sur ces même données. Dans ce contexte, différents paradigmes ont été développés
en apprentissage non-supervisé, en fouille de données ou en reconnaissance de formes.
Ils permettent l’intégration de plusieurs sources d’informations afin d’établir un ensemble ou
plusieurs ensembles d’hypothèses de classification sur des données non étiquettées.
Clustering semi-supervisé. Le paradigme du clustering semi-supervisé concerne l’utilisation
d’un ensemble de connaissances a priori sur l’appartenance ou non de paires d’individus à un
même groupe. Cette information peut se présenter de deux façons différentes :
– on dispose pour chaque individu pris parmi les connaissances a priori, de son étiquette de
classe ou de l’hypothèse d’un expert sur l’individu ;
– on dispose pour chaque paire d’individus pris parmi les connaissances a priori, d’une
contrainte indiquant si les deux individus doivent, ou ne doivent pas appartenir à un
même groupe.
On requiert en général que les méthodes de clustering semi-supervisées soient capables de satisfaire
au mieux les connaissances disponibles et que l’utilisation de celles-ci permettent d’améliorer
la production des hypothèses sur les appartenances de tous les individus. Il existe de plus
d’autres formes de contraintes qui peuvent concerner notamment : les contraintes sur la taille
SOMMAIRE 17
des groupes si nous disposons d’une connaissance sur l’homogénéité de ceux-ci, les contraintes
de densité où l’on peut imposer une distance minimum entre les groupes, ainsi qu’une distance
maximum entre deux individus d’un même groupe.
Clustering multi-vues. Le paradigme du clustering multi-vues consiste à obtenir un unique
clustering d’un ensemble d’individus décrits par de multiples représentations (données multireprésentées)
que l’on appellera vues :
– on dispose pour chaque individu de plusieurs espaces de représentations, ou ensembles de
variables. Il s’agit dans ce cas de données vectorielles multidimensionnelles ;
– on dispose pour chaque paire d’individus d’une information relationnelle sur leur proximité
(distance, dissimilarité, similarité ou écart). Il s’agit dans ce cas de données relationnelles
multidimensionnelles.
Notons que dans le cas des données relationnelles multidimensionnelles ou des données
vectorielles multidimensionnelles de même dimensions, on peut parler de tenseurs d’ordre 3 ou
de cube de données, pour représenter de telles données.
Dans le cadre des recherches dans le domaine du clustering de données multi-vues, on émet
l’hypothèse suivante que l’on va chercher à réaliser : chaque vue apporte suffisamment d’informations
pour réaliser un bon clustering (mais perfectible) de l’ensemble des individus, mais un
meilleur clustering peut être obtenu par une utilisation conjointe de l’ensemble des vues.
Clustering d’ensemble. Le paradigme du clustering d’ensemble consiste à obtenir un clustering
d’un ensemble d’individus à partir d’un ensemble de résultats de clustering différents, obtenus
par de multiples expertises apportées sur une même vue des données :
– les expertises apportées peuvent être certaines, auquel cas les clusterings correspondants
seront dit durs ou stricts ;
– les expertises apportées peuvent être incertaines, auquel cas les clusterings correspondants
seront dit flous, ou probabilistes.
Dans les travaux sur le clustering d’ensemble, et dans le même esprit que le clustering multivues,
on émet l’hypothèse qu’un clustering consensus construit à partir de l’ensemble des clusterings
disponibles sera meilleur que chaque expertise ou jugement pris isolément. Ces différents
résultats de clustering peuvent avoir été obtenus par application de plusieurs algorithmes ou
l’application du même algorithme mais avec des paramétrages différents, ou bien encore, par
sous-échantillonage des données (individus ou descripteurs).
Clustering alternatif. Le paradigme du clustering alternatif consiste à obtenir plusieurs clusterings
à partir d’un ensemble d’individus décrits par une unique vue, et tels que :
– les clusterings obtenus soient de bonnes qualités ;
– les clusterings obtenus soient dissimilaires entre eux.
L’objectif sous-jacent aux techniques de clustering alternatif est de proposer à l’utilisateur
un choix plus vaste de clusterings possibles pour une meilleure interprétation lors de l’analyse
exploratoire. L’idée générale existe depuis longtemps et concerne notamment l’application d’un
même algorithme de clustering sur un même jeu de données, mais avec des paramétrages différents.
Cependant, elle a pris la forme d’un objectif contrôlé de recherche de dissimilarité entre
les différents résultats de clusterings, introduisant de ce fait une dépendance entre les clusterings
résultats à construire. Elle peut s’appliquer également dans le cas où l’on a à disposition des
données multi-représentées et où l’on cherche localement un clustering optimal, mais que les
clusterings locaux optimaux restent dissimilaires entre eux, ceci afin de maintenir de la diversité.
Cette problématique a également été formalisée dans le cas où l’on a à disposition un jeu de
18 SOMMAIRE
données mono-vue et une partition de cet ensemble d’individus. La tâche est alors de trouver
(au moins) un nouveau clustering tel que celui-ci soit optimal pour l’ensemble des individus à
disposition et différent de la partition donnée.
Liens entre les problématiques. L’ensemble de ces problématiques sont en réalité assez proches,
et c’est pour cette raison que cette thèse propose de les mettre en commun et de les explorer.
Les problématiques du clustering multi-vues et du clustering d’ensemble sont connexes de par
les propriétés du clustering objectif (le consensus), mais diffèrent par l’entrée donnée aux méthodes
répondant à ces problématiques (plusieurs descriptions d’un ensemble d’individus d’une
part, plusieurs matrices de partitions d’autre part). Au second problème s’ajoute alors la prise
en compte des descriptions des données et leur exploitation pour répondre au premier problème,
donnant lieu ainsi au clustering collaboratif. Le clustering alternatif peut être vu comme
une problématique duale aux deux précédentes, dans la mesure où, plutôt que de chercher un
clustering unique consensus à partir de plusieurs clusterings provenant d’une ou plusieurs vues
des données, on recherche un ensemble de clusterings dissimilaires, à partir d’une seule vue des
données. Cependant, et dans la mesure où l’efficacité des méthodes d’ensemble repose sur une
forme de diversité de l’ensemble des hypothèses à unifier, la recherche de clusterings alternatifs
peut alors être le préalable adéquat à la recherche de consensus par clustering d’ensemble. Le
clustering semi-supervisé, quant à lui, pourrait être considéré comme l’utilisation d’une matrice
de partition partielle (peu de paires d’individus sont réellement identifiées comme étant dans un
même groupe ou non), dans un clustering classique. On dispose ainsi d’une vue dans lesquels les
individus sont décrits, et d’une autre vue correspondant à une partition de ce même ensemble
d’individus, avec des valeurs manquantes. Enfin, dans la lignée du développement autour du
clustering alternatif, une famille d’approches considère une matrice de partition complète des
individus à utiliser dans un clustering classique mais pour trouver une partition alternative différente.
Les travaux concernant ce type de clustering alternatif suivent directement les travaux
du clustering semi-supervisé, où cette fois la matrice de partition sert à générer des contraintes
opposées, dans l’esprit, à ce qui est connu dans la partition pour forcer l’algorithme de clustering
à découvrir des groupes différents. Les différentes problématiques sont schématisées dans
la figure 0.4.
Contributions et organisation
L’objectif de la thèse est de dresser un état de l’art des différentes techniques dédiées au
traitement de données multi-vues et d’offrir à la communauté des approches nouvelles et/ou
innovantes pour l’analyse exploratoire de telles données. Le développement d’approches permettant
cette analyse conduit à en étudier les avantages, les cas d’applications et les limites
et, dans le cas de ces dernières, à proposer de les outrepasser. Les limites inhérentes aux premières
approches de clustering multi-vues, constatées après une étude préalable de l’état de
l’art, concerne l’imposition trop arbitraire de paramètres nécessaires à l’expression d’un modèle
intuitif, effectivement et aisément réalisable et implémentable, et offrant de bonnes propriétés
de convergence. Ce constat a alors entraîné l’exploration de nouveaux moyens d’obtenir des
solutions plus flexibles au regard de ces limites, mais moins élégantes et fondamentalement
moins maîtrisées et contrôlées. Cela a conduit à l’étude des multiples paradigmes associés à la
multiplicité des sources de données et/ou d’expertises sur ces données.
Faisant ainsi face aux diverses problématiques posées par l’analyse des données issues de
plusieurs sources d’informations, les contributions apportées concernent à la fois le clustering
multi-vues, le clustering sous contraintes ou clustering semi-supervisé, et enfin le clustering d’ensemble
et le clustering alternatif.
SOMMAIRE 19
Données
simple vue
Partition
Partielle
Clustering
semi-supervisé
Partition
Données ...
vue 1
Données
vue 2
Données
vue V
Clustering
multi-vues
Partition
consensus
Partition 1 Partition 2 ... Partition V
Clustering
ensemble
Partition
consensus Partition 1 Partition 2 ... Partition V
Clusterings
alternatifs
Données
simple vue
FIGURE 0.4 — Problématiques liées à la multiplicité dans les données. Dans l’ordre, ci-dessus, les problématiques
du clustering semi-supervisé, puis le clustering multi-vues, le clustering d’ensemble et enfin le
clustering alternatif.
Contributions au clustering multi-vues. Notre contribution au clustering multi-vues se concrétise
par une approche permettant d’obtenir une unique partition à partir d’un ensemble d’individus
multi-représentés, ainsi qu’une extension permettant le traitement d’un ensemble de
relations sur ce même ensemble d’individus. Les méthodes usuelles consistent à chercher à réduire
un désaccord entre les partitions obtenables dans chaque vue. Néanmoins l’étude de ces
approches dresse le bilan d’une nécessité d’imposer des choix arbitraires sur les modèles pour obtenir
des solutions analytiques élégantes, intuitives et convergentes. L’approche COFKM repose
sur l’optimisation d’une fonction objectif permettant simultanément de découvrir les groupes
naturels présents dans chaque vue des données et d’assurer la réalisation d’un accord entre les
différentes vues, au sens où les groupes obtenus dans chacune des vues doivent être similaires.
L’utilisation de COFKM nécessite d’avoir à disposition la description sous forme vectorielle de
chaque individu dans chaque vue, cette limite est dépassée par la seconde approche : COKFKM.
COKFKM permet non seulement de s’abstraire du type de représentation vectoriel contraignant,
puisqu’elle repose sur la donnée pour chaque vue d’une information relationnelle sur l’ensemble
des individus, mais offre également la possibilité d’utiliser différentes mesures de proximité
pour chaque vue. Ceci permet de mieux correspondre avec la distribution naturelle locale (dans
chaque vue) des individus. Des limitations d’ordre plus général sont apparues et se sont révélées
a priori insolubles dans le modèle proposé. Nous nous sommes ainsi orientés vers une autre
méthode pour réaliser un clustering consensus d’un ensemble d’individus. Celle-ci propose de
20 SOMMAIRE
réaliser un consensus par échange de messages entre différents algorithmes de clustering appliqués
dans chaque vue.
Ouverture aux autres problématiques liées à la multiplicité. Afin d’expliciter au mieux l’intuition
sous-jacente à la suite des premières contributions, nous pouvons « humaniser » le principe
de l’approche envisagée. Chaque vue des données induit naturellement une ou plusieurs
organisations naturelles. Tout algorithme de clustering permet de retrouver une de ces organisations
naturelles en groupes. On peut alors envisager d’appliquer un algorithme de clustering
différent par vue pour obtenir une partition des individus qui peut s’avérer bien différente de
celles obtenues dans les autres vues. Par une analogie grossière, mais pédagogique, on peut
envisager que chacun de ces algorithmes de clustering soit un agent. L’objectif de cet agent est
de produire le clustering qu’il jugera le meilleur selon son critère (sa fonction objectif) et ses
a priori (ses paramètres) à partir de la distribution naturelle des individus. Le clustering produit
via un raisonnement (le déroulement de l’algorithme) est une décision pour chaque paire
d’individus (regroupés ou non regroupés) et prend la forme d’un ensemble d’hypothèses si l’on
considère un principe d’incertitude relatif à l’agent et à sa décision. Une fois ses hypothèses
émises, il peut associer à chacune un degré de confiance (principe d’incertitude). Les deux hypothèses
possibles deviennent pour chaque paire : les deux individus présents dans la paire
sont ensemble ou ne sont pas ensemble. Ainsi, à l’issue du raisonnement, l’agent peut, si il le
souhaite, transmettre aux autres agents des messages, concernant certaines paires d’individus,
du type : « je suggère de ne pas mettre ses individus dans un même groupe » ou « je propose
de regrouper ces deux individus ». Selon cette perspective, nous pouvons ainsi suggérer la recherche
d’un clustering consensus, en cherchant à faire collaborer les divers agents pour que
les suggestions (hypothèses) émises par chacun permettent à tous de produire une décision
communément acceptable, dans le sens où les décisions finales (ou l’ ensemble des hypothèses)
issues du raisonnement de chacun tendent vers une même solution. Ce principe relève du sens
commun et du bien fondé de l’acceptation des divergences d’opinions, de remises en cause de
ses propres points de vues pour arriver à des réponses consensuelles à des questions complexes.
Pour revenir à une terminologie plus usuelle dans les communautés scientifiques s’attaquant
au clustering multi-vues, nous parlerons de contraintes sur les paires d’individus, qui seront
transmises d’une vue vers les autres et que celles-ci devront satisfaire pour aller vers une solution
globale souhaitée, par exemple, un ensemble de solutions locales proches entre elles, qui revient
à réaliser un consensus. Le principe de cette approche a conduit dans un premier temps à étudier
des méthodes apportant des solutions à la problématique du clustering sous contraintes et, dans
un second temps à la proposition d’une approche répondant à cette problématique.
Contributions au clustering semi-supervisé. Les contributions au clustering semi-supervisé
ont été réalisées au travers d’approches permettant l’intégration de connaissances externes sous
forme de contraintes sur certaines paires d’individus, devant (ou ne devant pas) appartenir à un
même groupe. Parmi les constats majeurs admis concernant cette problématique, deux points
sont à observer avec attention :
– Les approches sont, à de rares exceptions près, limitées par la nécessité d’imposer un algorithme
de clustering particulier. Historiquement, les algorithmes de la littérature étaient
dédiées à la satisfaction absolue des contraintes données, faisant face ainsi directement
dans le cas général, au problème bien connu de la NP-complétude du problème de la satisfiabilité
auquel on peut, dans ce contexte, se réduire. L’intégration de procédures de
tests de satisfiabilité des contraintes s’intégrant plus facilement lorsque l’algorithme de
clustering est fixé, la limitation apparaît alors clairement. Pour «échapper» au problème de
satisfiabilité, de la même manière que pour tenir compte d’incertitudes sur les contraintes
SOMMAIRE 21
données, la satisfaction absolue de celles-ci a été relâchée. Les approches suivantes sont
restées malgré cela dépendantes d’un algorithme en particulier, dans le but de satisfaire
à une rigueur mathématique et esthétique (propriétés de convergence, contrôle optimal,
etc.).
– Lorsqu’elles ne sont pas dépendantes d’un algorithme en particulier, les propositions de
l’état de l’art consistent essentiellement à modifier la relation de proximité émanant des
données dans le but de préparer en amont une meilleure satisfaction des contraintes par
un algorithme de clustering quelconque. Néanmoins, ces méthodes souffrent de l’absence
d’un dialogue (et d’un contrôle sur ce dialogue) entre l’hypothèse réalisée par le calcul de
la nouvelle proximité et l’impact de celle-ci sur l’algorithme de clustering.
Partant de là, les contributions BOC, UZABOC et ADAUZABOC permettent l’intégration de
contraintes et leur satisfaction par un algorithme de clustering quelconque. Ces approches sont
basées notamment sur un contrôle de l’adéquation entre la modélisation de l’intégration des
contraintes, et la satisfaction de celles-ci. BOC présente le défaut de ne bénéficier que d’une
convergence programmé et non prouvée, ainsi que d’un manque de contrôle sur l’optimalité de
la solution. UZABOC outrepasse ces limitations en utilisant un algorithme d’optimisation numérique
permettant de caractériser l’optimal en atteignant une convergence numérique. ADAUZABOC
est une version adaptative de la précédente, pour laquelle notamment la convergence est
atteinte plus rapidement. Suivant l’objectif d’un modèle générique dont le principe est l’échange
de contraintes entre algorithmes de clustering, nous avons choisi d’étendre l’algorithme ADAUZABOC
en vue de satisfaire l’objectif initial de clustering dans un contexte de multiplicité des
données.
De la généricité d’un modèle face à de multiples contextes d’application. Pour finir, la dernière
approche est en réalité une plateforme générique instanciable en deux variantes, permettant
d’attaquer les différents problèmes de recherche de consensus et d’alternatives. L’approche
COBOC est complètement générique et répond à la problématique du clustering multi-vues. Elle
propose dans chaque vue de produire un clustering local naturel, mais conscient des organisations
naturelles existantes dans les autres vues, par l’intermédiaire de contraintes. La problématique
de génération de bonnes contraintes est alors centrale dans le but d’obtenir des solutions
locales proches dans toutes les vues. COBOC est une approche fondée sur des heuristiques frugales
de génération de contraintes qui permettent de moduler d’une part, entre recherche de
solutions locales similaires ou dissimilaires (alternatives) entre elles, et d’autre part, de produire
un clustering local final dans chaque vue alternatif au clustering naturel sans intégration
de contraintes émanant des autres vues. La volonté d’obtenir un consensus par génération de
contraintes externes est à rapprocher des techniques visant à obtenir un consensus de partitions
comme la recherche de partitions médianes ou le clustering d’ensemble, sources d’inspiration et
offrant des points de comparaison ainsi qu’une possibilité d’intégration. Le choix des contraintes
à générer pour atteindre l’objectif nécessite l’exploration de l’apprentissage actif, afin de produire
des heuristiques non frugales. Enfin, obtenir un consensus peut ne pas être l’objectif escompté,
si l’on cherche à obtenir de la diversité dans les productions d’hypothèses comme dans le cas de
l’alternative clustering. Ainsi, les heuristiques de génération de contraintes peuvent être conçues
pour tendre vers cet objectif.
Organisation de la thèse.
Dans le but de présenter de la manière la plus complète ces approches, un panorama de
la classification non supervisée et des techniques fondamentales utilisées pour le traitement de
données classiques (mono-représentées et mono-sources) sera dressé (Chapitre 1). Dans la suite
22 SOMMAIRE
sont présentées les différentes contributions apportées au clustering multi-vues (Chapitre 2),
au clustering semi-supervisé (Chapitre 3) et à la collaboration entre algorithmes de clustering
(Chapitre 4) pour des objectifs de recherche de consensus, dans le contexte de la combinaison
de modèles adaptés aux données mono-vue/mono-source et le contexte multi-vues, ou de
recherche de clusterings alternatifs de données mono-vue/mono-source. Ces contributions sont
introduites à chaque fois par le contexte scientifique et l’analyse de l’état de l’art répondant à la
problématique posée, puis sont discutées en présentant les perspectives d’évolution. Pour finir,
la conclusion clôturera le mémoire par une synthèse de l’ensemble des travaux réalisés.
Ce manuscrit de thèse présente l’ensemble des contributions apportées et liées au clustering
dans un contexte de multiplicité de données. Comme présenté précédemment, cette multiplicité
peut concerner :
– la multiplicité des représentations des individus ou des informations relationnelles entre
ceux-ci ;
– la multiplicité des sources d’informations et la nature de ces informations ;
– la multiplicité des traitements possibles pour produire des résultats de clusterings alternatifs
et intéressants.
Le manuscrit est composé, hormis la précédente introduction, de quatre chapitres dont les
lignes directrices sont esquissées ci-après.
Chapitre 1 : Classification non supervisée.
Le chapitre 1 présente les algorithmes classiques de classification non supervisée. Celles-ci
s’adressent aux données mono-vue et mono-source. Loin de dresser un état de l’art exhaustif
de ces approches, le panorama proposé constitue un socle adapté pour la compréhension des
différents algorithmes des prochains chapitres, ainsi que celle des contributions proposées. Les
principales familles d’approches sont présentées, ainsi que les principaux problèmes associés à
l’utilisation de celles-ci et ceux liés au clustering en général.
Chapitre 2 : Classification non supervisée centralisée de données multi-vues.
Le chapitre 2 présente l’élaboration d’une approche de clustering multi-vues dont le but est
de produire une unique partition résultant du traitement d’un ensemble d’individus décrits par
plusieurs représentations ou plusieurs tableaux relationnels, répondant ainsi au premier problème
sur la multiplicité des données. Cette contribution se fonde sur un algorithme classique
présenté dans l’état de l’art: les K-moyennes floues [Bezdek, 1981], et sur un principe régissant
le développement des approches de l’état de l’art : la minimisation d’un désaccord entre les
clusterings naturels des différentes vues.
Chapitre 3 : Classification non supervisée et intégration de connaissances
externes.
Le chapitre 3 présente deux approches de clustering semi-supervisées. L’objectif est d’améliorer
un algorithme de clustering en incorporant des connaissances issues de sources externes,
et spécifiant, pour certaines paires d’individus, la relation d’appartenance ou non de ces individus
à un même groupe. Les approches proposées permettent l’amélioration de n’importe quel
algorithme de clustering, ce qui les rend plus flexibles. Ainsi, les approches proposées peuvent encapsuler
les différents algorithmes présentés dans l’état de l’art sur le clustering. Elles se fondent
sur le principe de réduction de dimensions contrôlé dans le but d’être en adéquation avec les
connaissances externes. Celles-ci se différencient selon la méthode de résolution employée. La
première est basée sur un principe de boosting adaptatif, technique très efficace d’amélioration
SOMMAIRE 23
de performance dans un cadre d’apprentissage supervisé, et porté ici dans le cadre du clustering
semi-supervisé. La seconde est basée sur une méthode d’optimisation numérique offrant des
garanties de convergence numérique vers une solution que l’on peut caractériser.
Chapitre 4 : Classification non supervisée et collaboration.
Le chapitre 4 présente un algorithme flexible et paramétré permettant d’attaquer à la fois les
problématiques de multiplicité des représentations des individus, et en même temps d’offrir une
multiplicité de clusterings alternatifs à partir d’individus décrits par de multiples représentations
ou non. L’algorithme proposé permet de s’abstraire des algorithmes de clustering et permet également
la collaboration entre ces algorithmes. Cette collaboration permet d’atteindre les objectifs
de (1) recherche de consensus, dans le contexte de la combinaison de modèles adaptés aux données
mono-vue et mono-source et le contexte multi-vues, ou de (2) recherche d’alternatives de
clustering pour données mono-vue et mono-source. Elle est fondée sur une des approches développées
précédemment pour le clustering semi-supervisé, couplée à un ensemble d’heuristiques
caractérisant l’objectif recherché.
Conclusion.
Pour finir, la conclusion clôturera le mémoire par une synthèse de l’ensemble des travaux
réalisés et permettra de dresser les perspectives à court et moyen terme du développement des
approches proposées.
Classification non supervisée 1
Sommaire
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.2 Approches hiérarchiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.2.1 DIANA : DIvisive ANAlysis . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.2.2 AGNES : AGglomerative NESted clustering . . . . . . . . . . . . . . . . . 28
1.3 Approches partitives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.3.1 Approches basées sur les prototypes . . . . . . . . . . . . . . . . . . . . 30
1.3.1.1 KM : les K-moyennes . . . . . . . . . . . . . . . . . . . . . . 30
1.3.1.2 SC : clustering spectral . . . . . . . . . . . . . . . . . . . . . 32
1.3.2 Approches basées sur la densité . . . . . . . . . . . . . . . . . . . . . . 34
1.3.2.1 DBSCAN : clustering basé sur la densité . . . . . . . . . . . . 34
1.3.2.2 SOM : les cartes auto-organisatrices . . . . . . . . . . . . . . 35
1.4 Approches floues et probabilistes . . . . . . . . . . . . . . . . . . . . . . . . 37
1.4.1 FKM : les K-moyennes floues . . . . . . . . . . . . . . . . . . . . . . . 37
1.4.2 EM : estimation d’un mélange de modèles par Espérance-Maximisation 39
1.5 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
1.5.1 Les liens entre familles d’algorithmes de clustering . . . . . . . . . . . . 41
1.5.2 Le problème du nombre de groupes . . . . . . . . . . . . . . . . . . . . 42
1.5.3 Le problème de l’évaluation . . . . . . . . . . . . . . . . . . . . . . . . 43
1.5.3.1 Mesures basées sur l’énumération . . . . . . . . . . . . . . . 44
1.5.3.2 Mesures statistiques basées sur l’entropie. . . . . . . . . . . . 45
1.5.4 Le choix de la proximité . . . . . . . . . . . . . . . . . . . . . . . . . . 46
1.5.5 Le choix de l’algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . 47
26 CHAPITRE 1. CLASSIFICATION NON SUPERVISÉE
1.1 Introduction
Dans ce chapitre introductif sont présentées les grandes familles d’algorithmes de clustering.
Il existe de multiples critères pour les différencier et les présenter en une typologie cohérente. La
présentation de ces approches de classification suit une trame classique selon le type de résultat
produit. Les différents algorithmes classiques seront organisés selon les approches :
– hiérarchiques produisant un ensemble de partitions imbriquées appelé dendrogramme;
– partitives, dont le résultat est une partition en un nombre de groupes fixé, donné, ou
découvert par l’algorithme;
– génératives ou floues, permettant d’obtenir une partition floue des individus, ou d’attribuer
des valeurs de probabilités d’appartenance des individus à chaque groupe.
Il sera tenu compte également de la philosophie de l’approche et spécifié pour chacune, si
elle est de type :
– discriminative, c’est à dire que l’approche vise à déterminer géométriquement des frontières
de décision en séparant les individus dans un espace donné. Elles se présentent
sous la forme d’un programme d’optimisation d’un critère objectif, éventuellement avec
contraintes. La solution est ainsi caractérisée par l’optimum global de ce critère objectif,
qui est en général approché par un algorithme directement dérivé du critère ;
– générative, lorsqu’elle est basée sur un modèle probabiliste. L’approche permet ainsi de
définir à la fois la solution optimale après émission d’une hypothèse sur la nature des
lois censées régir l’ensemble d’individus, et en même temps propose une explication sur la
façon dont a été généré cet ensemble. Cette dernière information offre l’intérêt notamment
de pouvoir re-générer automatiquement un nouvel ensemble d’individus, semblable à celui
d’origine;
– purement algorithmique, si elle n’est fondée sur aucun critère objectif (ou celui-ci n’est
pas connu), mais les groupes sont obtenus par pure recherche heuristique durant l’application
de l’algorithme.
Avant d’analyser en détail ces approches et les liens existant entre elles, il convient de rappeler
l’hypothèse centrale qui régit chacune d’entre elles ainsi que leur utilisation : l’hypothèse
de l’existence de groupes. Cette hypothèse établit que des échantillons d’individus très proches
entre eux doivent appartenir au même groupe et partager alors la même étiquette. De manière
équivalente la frontière de décision entre deux groupes doit correspondre à une zone de faible
densité i.e. zone dans laquelle peu d’individus sont présents. En prendre connaissance est important,
étant donné que l’application d’un algorithme de clustering n’a de sens que si l’on peut
confirmer cette hypothèse, par exemple, en s’assurant que les individus ne sont pas distribuées
selon une loi uniforme. Ce dernier cas peut relever d’un problème de représentation des individus
ou de choix de la mesure de proximité, quoiqu’il en soit, d’un problème intervenant en
amont de la procédure de découverte des groupes.
Au delà de l’utilité d’appliquer un algorithme de clustering et du coeur constituant celuici,
figure le problème de l’évaluation. Pouvoir déterminer l’apport d’un algorithme de clustering
particulier est un problème en soi. Un cadre favorable d’évaluation se présente lorsque l’étiquette
des individus est connue i.e. lorsque l’on a à disposition des groupes cibles appelés classes, à
retrouver. L’évaluation est alors dans ce contexte une vérification de la ressemblance entre les
groupes produits et les classes données. Le problème de l’évaluation sera adressé plus en détail
en fin de chapitre.
L’objectif des approches de clustering est de produire une structure permettant d’organiser
les données. Celle-ci peut être un dendrogramme, ou une partition de taille fixée éventuellement
représentée par un ensemble d’éléments représentatifs appelés prototypes. La forme et la
1.2. APPROCHES HIÉRARCHIQUES 27
manière d’obtenir une telle structure sera explicitée en temps voulu lors de la présentation des
différentes familles d’algorithmes. L’ensemble des méthodes classiques présentées sont formalisées
selon la notation suivante :
NOTATION
n : le nombre d’individus à regrouper.
np : le nombre d’attributs décrivant les individus.
nk : le nombre de groupes à identifier.
nc : le nombre de classes associé aux données.
X = fx1; :::; xng : l’ensemble des n individus à partitionner.
X 2 Rn_np : la représentation matricielle de X.
xi 2 Rnp : la représentation vectorielle de l’individu xi.
C = fC1; :::;Cnkg : la structure de clustering en nk groupes à construire.
c = fc1; :::; cnkg : l’ensemble des nk prototypes des groupes.
C = fC1; :::; Cncg : l’ensemble des nc classes d’individus à retrouver.
D = fD0; :::;Dng : la structure de dendrogramme associée aux données.
d(xi; xj) : la distance au sens général entre deux individus xi et xj .
jjxi xj jjp : la distance de Minkowski entre deux individus xi et xj .
1.2 Approches hiérarchiques
Les approches de clustering hiérarchiques sont des approches non paramétriques et purement
algorithmiques qui proposent de construire une structure hiérarchique appelée dendrogramme.
Il s’agit d’un arbre dans lequel chaque niveau correspond à une partition de l’ensemble des
individus. Chaque noeud, appelé aussi amas, est une partie de la partition correspondante (un
groupe) et l’ensemble de ses fils constitue une partition de ce noeud. La figure 1.1 illustre cette
structure. Les approches permettant de construire un dendrogramme de ce type se décomposent
en deux familles :
– les approches agglomératives qui construisent le dendrogramme par la base, en regroupant
à chaque étape les amas d’individus les plus similaires ;
– les approches divisives qui construisent le dendrogramme par le haut, en partitionnant à
chaque étape un amas en sous amas.
1.2.1 DIANA : DIvisive ANAlysis
Algorithme
L’approche DIANA pour DIvisive ANAlysis clustering suggère une construction descendante du
dendrogramme. Partant d’un amas A non singleton et de plus grand diamètre (contenant initialement
l’ensemble des individus xi 2 X), l’algorithme procède par division successive et itérative
en deux parties A0 et A0 équilibrées. Le diamètre d’un amas A est défini par :
Diam(A) = max
xi2A;xj2A
d(xi; xj) (1.1)
Partant de A0 = A et A0 = ;, l’approche consiste alors à transférer un ensemble d’individus
de A0 vers A0 de telle sorte à conserver un équilibre entre ces deux ensembles. On choisit de
28 CHAPITRE 1. CLASSIFICATION NON SUPERVISÉE
transférer à chaque étape l’individu xi 2 X qui maximise
D(xi;A0 n fxig) =
1
jA0j 1
X
xj2A0
xj 6=xi
d(xi; xj) (1.2)
correspondant à une distance moyenne de l’individu xi aux individus de A0 n fxig. Lorsque la
quantité _(A0;A0; xi) = D(xi;A0 nfxig)D(xi;A0) devient négative, l’individu xi n’est alors pas
transféré et le processus de division de A s’arrête. Une nouvelle subdivision peut alors recommencer
en choisissant à nouveau l’amas de plus grand diamètre entre A0 et A0. L’algorithme est
présenté en détail dans l’algorithme 1.
Algorithme 1 DIANA
ENTRÉES : X, d(:; :)
SORTIES : D
1 : A = X, D0 = fAg et i = 1
2 : A0 = arg max
A2Di1
Diam(A), A0 = ; et Di = Di1 n A0
3 : choisir x_i
= arg max
xi2A0
D(xi;A0 n fxig)
4 : si _(A0;A0; x_i
) _ 0 alors A0 = A0 n fx_i
g, A0 = A0 [ fx_i
g et aller en 3
5 : si i < jX j alors i = i + 1, Di = Di [ A0 [ A et aller en 2
L’un des problèmes majeurs de l’approche DIANA est sa sensibilité aux outliers, qui sont des
individus isolés dont on peut considérer qu’ils proviennent d’une erreur de mesure ou d’un comportement
anormal selon le cadre applicatif. En effet ceux-ci biaisent la définition du diamètre
d’un amas et perturbe le processus de subdivision. Les approches divisives restent moins présentes
et utilisées que les approches agglomératives pour des raisons de complexité, le problème
de trouver une bipartition optimale pour tout critère étant lui même NP-difficile.
1.2.2 AGNES : AGglomerative NESted clustering
Algorithme
Les méthodes agglomératives de type AGNES pour AGglomerative NESted clustering consistent
à partir d’autant d’amas singletons que d’individus, puis à fusionner dans un processus itératif les
amas les moins dissimilaires, ou de manière équivalente, les plus similaires (cf. algorithme 2). La
dissimilarité inter-amas peut être calculée de multiples façons, et le choix de la mesure influence
grandement le résultat de l’algorithme agglomératif. Les différentes mesures mènent naturellement
à différentes déclinaisons de la méthode de construction des partitions imbriquées. Parmi
elles, nous trouvons :
SLINK ou le simple lien qui consiste à utiliser la mesure :
D(Ai;Aj) = min
xi2Ai;xj2Aj
d(xi; xj)
La distance entre deux amas est alors la distance la plus courte entre individus de ces
amas ;
ALINK ou la méthode en lien moyen utilisant la mesure de dissimilarité inter-amas suivante :
D(Ai;Aj) = d(ci; cj)
1.2. APPROCHES HIÉRARCHIQUES 29
où ci =
1
jAij
X
xi2Ai
xi et cj =
1
jAj j
X
xj2Aj
xj sont les moyennes respectives des amas Ai et
Aj . La distance entre deux amas correspond dans ce cas à la distance entre les barycentres
respectifs de ceux-ci ;
CLINK ou la méthode en lien complet qui est basée sur la définition de la mesure suivante :
D(Ai;Aj) = max
xi2Ai;xj2Aj
d(xi; xj)
La distance entre deux amas devient la distance la plus grande entre individus présents
dans ces amas.
1
2
3
101
103
102
52
51
53
0 1 2 3 4 5
Height
1
2
3
101
103
102
52
51
53
0 1 2 3 4 5
Height
1
2
3
101
103
102
52
51
53
0 1 2 3 4 5
Height
FIGURE 1.1 — Dendrogramme obtenu après application d’un clustering hiérarchique. Les deux dernières
images correspondent à une coupure du dendrogramme afin d’obtenir une partition “à plat” du nombre
de groupes désiré (nk = 3 et nk = 5 respectivement).
FIGURE 1.2 — . Les différents résultats issus de l’application d’un algorithme de clustering hiérarchique
agglomératif selon différentes mesures de dissimilarité inter-amas. Dans l’ordre, le clustering SLINK, le
clustering ALINK et le clustering CLINK.
D’autres approches divisives et agglomératives ont été explorées et sont présentes dans la littérature
[Kaufman and Rousseeuw, 1990]. Elles ne seront pas présentées ici car elle ne servent
pas de socle pour les algorithmes développés par la suite pour les problématiques spécifiques.
Ces méthodes sont utiles lorsque l’on souhaite une analyse de l’ensemble d’individus à plusieurs
niveaux de granularité, au travers de plusieurs partitions imbriquées de 1 à n groupes. Elles
30 CHAPITRE 1. CLASSIFICATION NON SUPERVISÉE
Algorithme 2 AGNES
ENTRÉES : X, d(:; :)
SORTIES : D
1 : 8xi 2 X;Ai = fxig, D0 = fAig1_i_jXj et i0 = 1
2 : (A_1
;A_2
) = arg min
(A1;A2)2D2
i01
D(A1;A2)
3 : Di0 = Di01 n fA_1
g [ fA_2
g et Di0 = Di01 [ fA_1
[ A_2
g
4 : si i0 < jX j alors i0 = i0 + 1 et aller en 2
peuvent être implémentées par des algorithmes de complexité acceptable à l’aide de structures
de données adéquats et peuvent alors être adaptées à de grandes bases. Néanmoins, elles sont
limitées par le fait que lorsque deux amas deviennent agglomérés, une réaffectation des individus
présents dans ces amas n’est plus possible. Ainsi, le meilleur clustering des individus en nk
amas ne peut espérer être réellement atteint, et on préférera utiliser des méthodes par partitionnement
en nk groupes, plus adaptées.
1.3 Approches partitives
Cette sous section détaille les algorithmes de partitionnement selon deux familles d’approches
:
– les approches basées sur les prototypes qui consistent à définir un ensemble de centres ou
moyennes de départ qui caractériseront chacun un groupe d’individus ;
– les approches basées sur le voisinage qui émettent des hypothèses topologiques sur la
distribution de l’ensemble d’individus X.
Ces approches sont désormais plus courantes dans les communautés dédiées au développement
de nouveaux algorithmes de clustering. Dans la suite sont présentés des exemples de telles
familles ainsi que les liens que l’on peut trouver entre elles.
1.3.1 Approches basées sur les prototypes
1.3.1.1 KM : les K-moyennes
La méthode discriminative des K-moyennes [MacQueen, 1967], notée KM, est l’approche
la plus connue, utilisée et étendue dans les différentes communautés dédiées au clustering. Le
principe est «naturel», étant données la distribution des individus de X dans l’espace de description
et un nombre nk de groupes fixé, l’objectif est de minimiser la dispersion des individus
relativement à un ensemble de prototypes représentatifs de ces groupes.
Objectif
Les individus xi 2 X doivent nécessairement être représentés par un vecteur de Rp, et l’ensemble
X est alors décrit par une matrice X 2 Rn_p. Du point de vue du modèle, KM est basé
sur la minimisation d’une erreur quadratique relativement à ces prototypes qui se formalise par:
min
c;C
QKM(c;C) = min
c;C
Xnk
k=1
X
xi2Ck
jjxi ckjj22
où ck est le prototype du groupe Ck.
1.3. APPROCHES PARTITIVES 31
Algorithme
Du point de vue de l’algorithme (cf. algorithme 3), il s’agit d’un processus itératif qui alterne,
à chaque étape:
1. une phase d’affectation des individus à leur groupe le plus proche :
C_
k = fxi 2 X j ck = arg min
c2fc1;:::;cnk
g
jjxi cjj22
g (1.3)
2. une phase de mise à jour des centres de groupe :
c_
k = arg min
c2Rp
X
xi2Ck
jjxi cjj22
(1.4)
=
1
jCkj
X
xi2Ck
xi
Le nouveau prototype est alors le barycentre du sous ensemble des individus xi 2 Ck.
La figure 1.3 retrace le principe de l’algorithme KM. À la première itération, 3 prototypes
sont définis aléatoirement et les première affectations (représentés par les colorations) sont
réalisées relativement à ces prototypes. À l’itération 2 on observe le déplacement des prototypes
par la traînée rouge et une réaffectation correspondante à la nouvelle position de ceux-ci. La
dernière illustration montre l’algorithme stabilisé qui parvient à trouver 3 groupes convexes et
homogènes.
FIGURE 1.3 — Illustration des étapes de KM à partir des itérations 1, 2, et 8 correspondant à la stabilisation
(nk = 3).
Algorithme 3 KM
ENTRÉES : X, nk
SORTIES : C = fC1; :::;Cnkg
1 : Initialisation aléatoire des nk centres de groupes fc1; :::; cnkg
2 : Mise à jour des groupes Ck 8k 2 [1::nk] en utilisant (1.3)
3 : Mise à jour des centres de groupe ck 8k 2 [1::nk] en utilisant (1.4)
4 : Si la valeur de QKM change alors aller en 2
On notera qu’il s’agit là d’un problème d’optimisation non convexe, c’est à dire que l’on
ne peut avoir de garantie d’atteindre l’optimum global du critère. À chaque étape, la mise à
jour des groupes est optimale selon la définition actuelle des centres. Les nouveaux centres eux
32 CHAPITRE 1. CLASSIFICATION NON SUPERVISÉE
remplissent les conditions d’optimalité du premier ordre. Ainsi l’optimalité locale ou globale est
complètement déterminée par l’initialisation des centres. En général, KM est exécuté plusieurs
fois avec des initialisations différentes et le meilleur résultat est retenu.
Parmi les avantages, on notera la complexité linéaire de l’algorithme en le nombre d’individus,
la simplicité d’implémentation et l’interprétation naturelle du modèle et de l’algorithme
associé. La convergence théorique est également prouvée, par le fait que le critère à minimiser
est positif, admet l’existence d’un optimum, puis que sa valeur décroît à chaque étape de
l’algorithme.
Parmi les inconvénients, on peut noter que KM est limité par la représentation des individus.
Chaque individu doit ainsi être décrit par un vecteur numérique de dimensionnalité p. Ainsi il
n’est pas directement applicable si les données sont représentées directement par une matrice de
proximité de type similarité ou dissimilarité. Un autre désavantage concerne le fait que KM ne
peut produire que des groupes convexes, et de diamètre homogène.
1.3.1.2 SC : clustering spectral
Le clustering spectral (SC) [Luxburg, 2007] est une autre approche discriminative de partitionnement,
qui aurait pu être traitée parmi les approches basées sur le voisinage, car elle permet
de prendre en compte la topologie naturelle des données. En réalité, il s’agit d’un KM appliqué
à l’ensemble des individus projetés dans un sous espace particulier. Cet espace de projection
de dimensions nk est construit de telle sorte que des paquets d’individus proches se forment
naturellement dans chaque dimension. Le critère objectif correspond donc à une variante de
KM [Dhillon et al., 2005] qui ne sera pas détaillée ici.
Algorithme
L’algorithme 4 repose sur une représentation des données sous formes d’un graphe de similarité
G traduisant la notion de proximité entre individus. Il existe plusieurs façons de construire
un tel graphe à partir des données :
– dans le graphe de voisinage _, une arête existe entre deux individus xi 2 X et xj 2 X si
d(xi; xj) _ _ ;
– dans le graphe des k plus proches voisins kNN, une arête existe entre les individus xi 2 X
et xj 2 X si xj 2 kNN(xi) i.e. xj est parmi les k individus les plus proches de xi ;
– le graphe complet, une arête existe pour toutes les paires d’individus.
Les différentes arêtes du graphe sont munies d’un poids correspondant à la similarité entre
les deux individus concernés par l’arête, similarité qui peut être calculée de multiples manières
et le choix en est laissé selon le cadre applicatif.
Le sous-espace dans lequel projeter les données s’obtient en calculant par diagonalisation les
vecteurs propres du laplacien du graphe choisi. Le résultat utilisé étant que les vecteurs propres
du laplacien caractérisent des composantes connexes du graphe lorsque leurs valeurs propres
associées sont nulles, ou bien des zones de fortes densité (mais non déconnectées du graphe)
lorsqu’elles sont petites. Le laplacien L du graphe est défini à partir de la matrice d’adjacence W
du graphe et de la matrice diagonale D des degrés de ses sommets (les individus):
L = D W
avec W la matrice d’adjacence définit par :
Wij =
_
1 s’il existe une arête entre xi et xj
0 s’il n’existe pas d’arête entre xi et xj
1.3. APPROCHES PARTITIVES 33
et D la matrice diagonale des degrés
D = diag(d1; :::; dn) ; di =
X
xj2X
wij
La valeur Wij _ 0 peut également refléter la similarité entre xi et xj plutôt que l’existence
d’une arête.
Une étape clé avant le calcul des vecteurs propres et la diagonalisation est la normalisation
du laplacien. Différentes approches ont été développées selon le type de normalisation proposé
[Shi and Malik, 2000] ; [Ng et al., 2001]. Ainsi les normalisations possibles sont les suivantes :
Lsym = D1
2LD1
2 = I D1
2WD1
2 (1.5)
Lrw = D1L = I D1W (1.6)
Le choix de la normalisation a une influence sur les vecteurs propres du laplacien, et ceux-ci
correspondent alors à des solutions de problèmes relachés de partitionnement de graphes selon
différentes heuristiques. En particulier, soit :
– le volume du groupe Ck, noté vol(Ck) défini par :
vol(Ck) =
X
xi2Ck
W(Ck;X n Ck)
où W(Ck;X n Ck) correspond au nombre d’arêtes, ou à la somme des poids des arêtes
entre les individus xi 2 Ck et xj 2 X n Ck :
W(Ck;Cl) =
X
xi2Ck
xj2Cl
Wij
– cut une mesure quantifiant la séparabilité des groupes C1, . . ., Ck et défini par :
cut(C1; : : : ;Cnk ) =
1
2
Xnk
k=1
W(Ck;X n Ck)
Minimiser ce critère selon C = fC1; : : : ;Cnkg revient à déterminer le nombre d’arêtes
minimal (ou la somme minimale des poids des arêtes) à ôter au graphe afin de déconnecter
les nk groupes.
Les nk premiers vecteurs propres des laplaciens normalisés Lsym et Lrw associés aux plus
petites valeurs propres correspondent à une représentation des individus dans laquelle l’application
des K-moyennes permet de résoudre une relaxation du problème de minimisation de la
coupure normalisée suivante :
min
C
QNCUT = min
C
Xnk
k=1
cut(Ck;X n Ck)
vol(Ck)
(1.7)
Le clustering spectral peut donc être vu comme un K-moyennes où les individus sont projetés
en paquets d’individus similaires relativement au graphe de similarité construit à partir des données.
Si l’on est capable de construire un graphe contenant nk composantes connexes alors les
individus sont projetés en nk paquets bien séparés car définis uniquement sur une des dimensions
de la matrice correspondant aux vecteurs propres du laplacien normalisé. Le graphe étant
la structure la mieux adaptée pour capturer la topologie des données. Elle permet de retrouver
naturellement les zones de fortes densités correspondant à un nombre important d’individus
proches. Cette notion de densité est centrale dans le développement des approches basées sur le
voisinage qui seront présentées par la suite.
34 CHAPITRE 1. CLASSIFICATION NON SUPERVISÉE
Algorithme 4 SC
ENTRÉES : X, nk
SORTIES : C = fC1; :::;Cnkg
1 : construire G représentant X. Déterminer W et D
2 : construire Ln selon (1.5) ou (1.6)
3 : construire P dont les colonnes sont les nk premiers vecteurs propres
4 : si Ln = Lsym alors re-normaliser les lignes de P (somme à 1)
5 : C = clustering des lignes de P par KM
1.3.2 Approches basées sur la densité
1.3.2.1 DBSCAN : clustering basé sur la densité
Un des premiers algorithmes dont l’objectif est explicitement de capturer les zones de fortes
densités, définissant ainsi un groupe, est DBSCAN [Ester et al., 1996]. Il s’agit d’une approche
exclusivement algorithmique qui se fonde sur une modélisation particulière du concept de zone
dense, et qui parcourt l’ensemble des individus afin de déterminer si ceux-ci appartiennent ou
non à une telle zone.
Algorithme
DBSCAN nécessite pour être applicable deux paramètres : _ et MinP ts. Ces paramètres globaux
déterminent la manière de trouver les groupes en définissant une topologie, puis en proposant
une approche constructive basée sur celle-ci. On distingue à partir de ces paramètres deux
familles d’individus, des individus coeur, et des individus frontière. Un individu xi est qualifié de
coeur si il contient dans son voisinage de longueur _ au moins MinP ts points, sinon il s’agit d’un
individu frontière. Le voisinage d’un individu xi est défini par :
N_(xi) = fxj 2 Xjd(xi; xj) _ _g
alors xi est coeur si jN_(xi)j _ MinP ts et frontière sinon. L’algorithme DBSCAN (cf. algorithme
5) procède alors par un parcours de l’ensemble des individus X jusqu’à rencontrer un individu
coeur xi, dès lors il devient générateur d’un groupe. Les voisins de xi n’appartenant à aucun
groupe sont alors affectés au même groupe que xi. Les nouveaux individus ainsi reaffectés, si ils
sont coeurs, propagent la génération du groupe selon le même principe.
Enfin, lorsque le groupe en construction ne peut plus s’étendre, il est alors complètement
défini in extenso par l’ensemble des individus qui auront été parcourus durant ce processus
récursif. Cette opération est répétée pour les individus restant de telle sorte à constituer un
ensemble de groupes denses. Les individus qui sont de type frontière et qui ne sont pas dans le
voisinage d’un individu de type coeur sont considérés comme du bruit, des individus mal définis
ou des outliers (individus atypiques isolés dans l’espace de représentation). Nous désignons
l’ensemble de tels individus par R.
Soient les définitions suivantes :
Atteignabilité directe : xj est directement atteignable en densité à partir de xi si xj 2 N_(xi)
et xi est un individu coeur ;
Atteignabilité : xj est atteignable en densité à partir de xi si xj est directement atteignable
en densité à partir de xi ou si 9xk 2 X et xk est un individu coeur tel que xj est directement
atteignable en densité à partir de xk et xk est atteignable en densité à partir de xi. On
notera alors
A(xi) = fxj 2 Xjxj est atteignable par xig
1.3. APPROCHES PARTITIVES 35
FIGURE 1.4 — Illustration des étapes de DBSCAN pour un voisinage de MinP ts = 4 individus et _ =
rayon du cercle fixés.
Chaque groupe est alors généré par un individu coeur xi, et contient l’ensemble des individus
atteignables en densité à partir de xi.
Algorithme 5 DBSCAN
ENTRÉES : X, MinP ts, _
SORTIES : C = fC1; :::;Cnkg, R
1 : i = 1, k = 1 et R = ;
2 : Ck = ;
3 : Tant que jN_(xi)j < MinP ts et xi =2
S
1_g_k Cg Faire i++, R = R [ fxig
4 : Ck = Ck [ fxig [ A(xi)
5 : Si 9xj 2 X tel que xj =2
S
1_g_k Cg [ R alors k++ et aller en 2.
DBSCAN présente de nombreux avantages, comme la détection automatique du nombre nk
de groupes et la détection des éléments atypiques ou outliers. L’approche permet de plus de capturer
des groupes de formes variées et impossibles à retrouver avec des algorithmes de partitionnement
classiques tels que KM. Mais ces avantages ont un prix, celui du choix des paramètres _
et MinP ts qui sont difficiles à estimer a priori. Cependant les auteurs ont proposé une approche
heuristique pour déterminer une bonne valeur de _ à partir de MinP ts fixé.
1.3.2.2 SOM : les cartes auto-organisatrices
Les cartes auto-organisatrices [Kohonen, 1988] constituent une famille d’algorithmes d’apprentissage
réalisant un clustering des individus en tenant compte de la topologie présente dans
les données. Le principe est de faire évoluer un ensemble de prototypes (appelés aussi neurones)
liés entre eux au moyen d’un graphe G qui représente une hypothèse topologique (souvent une
grille) sur ces derniers. Le nombre de prototypes, prédéfini, doit être plus grand que le nombre
de groupes supposé, ainsi le surnombre de prototypes permet de capturer la forme des groupes.
Objectif
36 CHAPITRE 1. CLASSIFICATION NON SUPERVISÉE
L’objectif visé est que l’ensemble des prototypes approxime la distribution naturelle des individus
dans l’espace. La stabilité de la carte topologique est obtenue comme l’optimum du critère
objectif suivant:
min
c
QSOM(c) = min
c
Xnk
k=1
X
xi2X
K(ck; f_(xi))jjxi ckjj22
où ck 2 Rp est le k-ième prototype. L’idée est alors proche, dans l’esprit, de KM où l’on va
chercher à déplacer les prototypes, de sorte à minimiser l’inertie des individus autour de ceuxci.
L’inertie est pondérée par une fonction K quantifiant, pour un terme de l’inertie donné (en
fixant k et i), une similarité entre le prototype concerné ck et le prototype le plus représentatif
de l’individu concerné f_(xi).
Algorithme
L’algorithme consiste à trouver un moyen de déterminer automatiquement une valeur optimale
de similarité K(ck; f_(xi)) et d’en déduire naturellement les mises à jours optimales des
prototypes, entraînant leur déplacement. Pour cela, le prototype f_(xi) est déterminé par :
f_(xi) = arg min
c2fc1;:::;cnk
g
jjxi cjj22
(1.8)
La similarité K est définie formellement par :
K(ci; cj) =
1
_(t)
_ e
jjcicj jj1
_2(t)
La norme L1 associée à l’espace G entre ci et cj correspondant à une distance géodésique sur
cet espace dans lequel sont définis uniquement les prototypes. Plus le prototype cj est proche
du prototype ci, plus la valeur de K(ci; cj) sera élevée. Ainsi, dans le critère on cherche davantage
à rapprocher un prototype ck d’un individu xi si ck = f_(xi), la similarité correspondante
K(ck; f_(xi)) étant maximale : K(ck; f_(xi)) = 1
_(t) .
Pour des raisons de convergence, l’expression de la mesure de similarité K évolue au cours
du déroulement itératif de l’algorithme, jusqu’à devenir une mesure quasi-binaire. Cette évolution
se fait par l’intermédiaire du paramètre _ dépendant de l’étape d’itération t. Ce paramètre
est mis à jour de façon heuristique par :
_(t) = _i(
_f
_i
)
t
tmax
où _i et _f sont des bornes définies a priori.
Enfin, les prototypes sont mis à jour par une recherche linéaire (pondérée par K(ck; f_(xi)),
qui lui n’est pas linéaire en ck) :
c_
k = ck _(t)K(ck; f_(xi))(xi ck) (1.9)
où _(t) est un pas d’optimisation variable qui diminue avec le temps pour garantir la convergence.
L’algorithme SOM existe sous différentes formes. Dans l’approche initiale, la carte est mise
à jour pour chaque présentation d’un individu xi par la règle (1.9) après avoir déterminé son
prototype représentant par (1.8). L’algorithme 6 relate une version dite batch pour laquelle la
carte est mise à jour de manière itérative une fois que tous les individus lui sont présentés,
davantage dans l’esprit de KM.
1.4. APPROCHES FLOUES ET PROBABILISTES 37
Algorithme 6 batch SOM
ENTRÉES : X, nk, _i, _f , G
SORTIES : C = fC1; :::;Cnkg
1 : t = 1 et _(t) = _i
2 : initialiser aléatoirement les nk prototypes fc1; :::; cnkg
3 : mise à jour de f_
xi
8xi 2 X selon (1.8)
4 : mise à jour des prototypes ck 8k 2 [1::nk] selon (1.9)
5 : si _(t) > _f alors t = t + 1 et aller en 3.
6 : Ck = fxi 2 Xjf_(xi) = ckg 8k 2 [1::nk]
1.4 Approches floues et probabilistes
Il peut arriver, au cours du processus itératif ou à la fin, qu’un individu soit difficile à classer
car proche simultanément de plusieurs groupes. La prise de décision faite par les approches par
partitionnement présentées précédemment est d’affecter l’individu au groupe le plus proche en
oubliant les autres. Une vision plus naturelle est alors d’adoucir cette décision et de maintenir
l’incertitude sur l’appartenance d’un individu aux groupes le plus longtemps possible. Cela
peut permettre d’éviter tant que possible de s’enraciner trop rapidement vers une solution qui
s’avèrerait peu satisfaisante, par exemple, un optimum local dans le cas des approches discriminatives.
L’incertitude lors du clustering peut être modélisée de différentes façons, les plus
courantes consistant à utiliser la théorie des ensembles flous ou bien la théorie des probabilités.
Dans le cadre des ensembles flous [Zadeh, 1965], on considère en général que chaque individu
appartient simultanément à tous les groupes mais avec un certain degré d’appartenance.
En ce qui concerne les approches probabilistes [Dempster et al., 1977], nous considérons qu’un
individus appartient à un seul groupe, qui correspond au groupe le plus probable, mais une probabilité
non nulle existe concernant l’évènement d’appartenance à chacun des autres groupes.
1.4.1 FKM : les K-moyennes floues
L’approche discriminative des K-moyennes floues, notée FKM, développée par [Bezdek, 1981]
est une généralisation de K-moyennes se basant sur des éléments de la théorie des ensemble
flous.
Objectif
Le principe est toujours de minimiser la dispersion des individus relativement aux prototypes,
mais pondérée cette fois par le degré d’appartenance de l’individu au groupe. Du point de vue
du critère objectif, on présente les K-moyennes floues de la manière suivante comme la minimisation
du critère de l’erreur quadratique semblable à KM, mais évaluée pour chaque individu
relativement à l’ensemble des prototypes :
min
c;u
QFKM(c; u) = min
c;u
Xnk
k=1
X
xi2X
u_
ikjjxi ckjj22
s:t:
Pnk
k=1 uik = 1 8xi 2 X
uik _ 0 8xi 2 X; 8k 2 [1::nk]
(1.10)
où _ _ 1 est un paramètre fixé dans l’objectif et ck est le prototype du groupe Ck. u = fuikg est
l’ensemble des degrés d’appartenance des individus aux groupes. En particulier, uik indique le
degré d’appartenance de l’individu xi au groupe Ck.
38 CHAPITRE 1. CLASSIFICATION NON SUPERVISÉE
Intuitivement, plus un individu à un moment donné sera proche d’un prototype relativement
aux autres, plus son degré d’appartenance à celui-ci sera élevé. Au final, le résultat n’est
pas une décision sur l’appartenance d’un individu à un groupe particulier, mais un ensemble
d’indicateurs permettant de mesurer l’incertitude sur le groupe auquel appartient cet individu.
La solution du problème d’optimisation, l’optimum, correspond à un ensemble de prototypes les
plus représentatifs des groupes ainsi que la matrice d’appartenance des individus aux groupes.
Cet optimum satisfait les conditions d’optimalité du premier ordre du Lagrangien associé au
problème d’optimisation sous contrainte. Comme le critère objectif est convexe lorsque l’une des
variables du problème d’optimisation est fixée, on peut obtenir alternativement les mises à jours
globalement optimales des degrés d’appartenance pour des centres fixés :
u_
ik =
jjxi ckjj2=(1_)
2
Xnk
j=1
jjxi cj jj2=(1_)
2
8xi 2 X; 8k 2 [1::nk] (1.11)
De la même manière, on obtient les centres globalement optimaux relativement aux degrés
d’appartenance de la manière suivante :
c_
k = arg min
c2Rp
X
xi2X
u_
ikjjxi cjj22
(1.12)
=
X
xi2X
u_
ikxi
X
xi2X
u_
ik
Algorithme
Du point de vue de l’algorithme (cf. Algorithme 7), à la manière de KM, il s’agit également
d’un processus itératif, semblable à la résolution d’un système d’équations (mise à jour des
centres, et mise à jour des degrés d’appartenances) par une méthode itérative de type Gauss-
Seidel, qui va alterner cette fois une phase de mise à jour des degrés d’appartenance des individus
aux classes et une phase de mise à jour des centres de classes (après une initialisation aléatoire
des centres de classes), jusqu’à une stabilisation numérique.
Algorithme 7 FKM
ENTRÉES : X, nk, _
SORTIES : C = fC1; :::;Cnkg
1 : Initialisation aléatoire des nk centres de groupes fc1; :::; cnkg
2 : Mise à jour des degrés d’appartenances uik 8xi 2 X; 8k 2 [1::nk] en utilisant (1.11)
3 : Mise à jour des centres de groupe ck 8k 2 [1::nk] en utilisant (1.12)
4 : Si QFKM change alors aller en 2
5 : Ck = fxi 2 Xjui;k = max
k02[1::nk]
uik0g 8k 2 [1::nk]
Cette fois, le résultat n’est pas une partition stricte, mais une partition floue, ce qui ne nous
dit pas à quel groupe appartient un individu. Pour répondre au problème du clustering originel,
il est nécessaire d’ajouter une étape d’affectation finale (étape 5 dans l’algorithme) des individus
aux groupes, à appliquer à l’issue de l’algorithme. La procédure choisie consiste à affecter les
individus aux groupes pour lesquels ils ont le plus fort degré d’appartenance.
xi 2 Ck , k = arg max
k02[1::nk]
uik0
1.4. APPROCHES FLOUES ET PROBABILISTES 39
Cette généralisation de KM est toujours formulée comme un problème d’optimisation non
convexe selon l’ensemble des variables correspondant aux centres et aux degrés. Ainsi, aucune
garantie n’existe concernant l’optimalité globale de la solution, et il convient également dans
ce cadre de relancer plusieurs fois l’algorithme. Cependant, empiriquement, FKM est beaucoup
plus stable que son analogue strict.
1.4.2 EM : estimation d’un mélange de modèles par Espérance-Maximisation
L’autre outil des mathématiques qui permet de capturer et tenir compte d’une forme d’incertitude
sur les classements des individus au sein des groupes est la théorie des probabilités.
Dans le cadre du clustering, le modèle qui prédomine est celui des mélanges de lois. On suppose
toujours que nk groupes existent, et chaque groupe est représenté par une loi de probabilité
paramétrée. Il existe de nombreuses lois de probabilité, mais en général, la loi normale est utilisée,
car elle permet de représenter la plus grande majorité de phénomènes, et elle approxime
également nombre d’autres lois. On considère alors que l’ensemble des individus X, appelé
également échantillon dans ce contexte, suit un mélange de nk lois paramétrées f. La k-ième
loi du mélange, caractérisée par sa fonction de densité fk est paramétrée par _k ainsi qu’une
probabilité a priori _k de générer l’ensemble des individus. La tâche de clustering est alors de
chercher quelles sont les lois (les paramètres des lois) qui permettent au mieux d’expliquer la
génération de l’échantillon d’individus X. En d’autres termes, trouver les meilleurs estimateurs
des paramètres _ = f(_k; _k)gk2[1::nk].
Modèle
On associe à chaque composante du mélange (chaque loi) une valeur de probabilité _k a
priori, exprimant la probabilité que la k-ième loi soit sélectionnée pour générer chaque individu
xi, que l’on appelle aussi proportion du mélange. Soit Xi les variables aléatoires dont les xi sont
des réalisations, le mélange associé aux nk lois est alors le suivant:
f(Xi; _) =
Xnk
k=1
_kfk(xi; _k) (1.13)
et le modèle expliquant la génération de l’échantillon X sous l’hypothèse d’une distribution
identique et indépendante des variables Xi s’exprime :
f(X; _) = f(X1; :::;Xn; _) =
Yn
i=1
Xnk
k=1
_kfk(xi; _k) (1.14)
Objectif
Maintenant que le modèle est défini, on peut formaliser l’objectif du clustering associé. Celuici
consiste à chercher les paramètres des lois qui maximisent la vraisemblance et, de manière
équivalente mais plus adaptée d’un point de vue computationnel, la log-vraisemblance des données
complétées par un vecteur aléatoire Z indiquant pour chaque individu xi, le groupe auquel
il semble appartenir (Zi = k , xi 2 Ck). La log-vraisemblance L des paramètres _ s’exprime
par :
L(_;X;Z) =
X
xi2X
Xnk
k=1
zik log(_kfk(xi; _k))
où zik représente la probabilité a posteriori que l’individu xi ait été généré par la k-ième composante
du mélange, selon la valeur de _ courante notée _. Le problème de maximisation de
40 CHAPITRE 1. CLASSIFICATION NON SUPERVISÉE
la log-vraisemblance des paramètres relativement à l’observation des données (l’échantillon) X
complétées par le vecteur Z est alors équivalent au problème de maximisation du critère QEM
décrit par:
max
_
QEM(_;_;X; nk) = (1.15)
max
_
X
xi2X
Xnk
k=1
f(Zi = kjXi = xi;_) log(_kfk(xi; _k))
Algorithme
L’algorithme employé pour obtenir l’optimum de ce critère est EM [Dempster et al., 1977].
Cette approche est destinée à estimer les paramètres de n’importe quel modèle statistique, mais
son utilisation est ici restreinte à l’estimation des paramètres du mélange de lois. Partant d’une
initialisation des paramètres _, l’algorithme propose de maximiser la log-vraisemblance des
données complétées en alternant deux étapes qui sont :
1. le calcul de l’espérance de la variable caché Zi permettant d’obtenir une mise à jour des valeurs
de probabilités a posteriori permettant d’évaluer l’espérance de la log-vraisemblance
selon la valeur courante des paramètres _. Ainsi, la variable zik est calculée par :
z_
ik = f(Zi = kjXi = xi; _)
=
_kfk(xi; _k)
Xnk
k0=1
_k0fk0(xi; _k0)
(1.16)
2. la maximisation du critère QEM selon _ et conditionnellement à la valeur courante des
probabilités a posteriori zik :
__ = arg max
_
L(_;X;Z)
= arg max
_
X
xi2X
Xnk
k=1
zik log(_kfk(xi; _k)) (1.17)
Lorsque les lois sont des lois normales multi-dimensionnelles fk _ N(ck;_k) où ck est la
moyenne et _k est la matrice de variances/covariances, alors la pdf fk est définie, pour des xi
vecteurs lignes, par :
fk(xi; _k) =
1
(2_)k=2j_j1=2
e1
2 (xick)_1(xick)>
La connaissance de la nature des lois permet de déterminer explicitement les formules de
mise à jour des paramètres (ck;_k) 8k 2 [1::nk]. Ainsi, dans le cas du mélange gaussien, on a :
c_
k =
X
xi2X
(zikxi)
X
xi2X
zik
__
k =
X
xi2X
_
zik(xi ck)>(xi ck)
_
X
xi2X
zik
1.5. BILAN 41
Enfin, les probabilités a priori sont également réestimées par :
_k =
1
n
X
xi2X
zik (1.18)
Algorithme 8 EM
ENTRÉES : X, nk, f
SORTIES : C = fC1; :::;Cnkg
1: Initialisation aléatoire des nk paramètres f_1; :::;_nkg
2: Étape E : Mise à jour des zik; 8xi 2 X; 8k 2 [1::nk] en utilisant (1.16)
3: Étape M : Mise à jour des _k 8k 2 [1::nk] en utilisant (1.17)
4: Mise à jour des _k 8k 2 [1::nk] en utilisant (1.18)
5: Si QEM change alors aller en 2
6: Ck = fxi 2 Xjzik = max
k02[1::nk]
zik0g 8k 2 [1::nk]
De la même manière que pour FKM, le résultat de l’algorithme n’est pas une partition stricte.
On peut néanmoins en obtenir une en appliquant la règle MAP, du maximum a posteriori, qui
consiste à affecter un individu xi au groupe Ck si cet individu a le plus de chance d’avoir été
généré par la k-ième composante du mélange, soit :
xi 2 Ck , k = arg max
k02[1::nk]
zik0
ce qui constitue l’étape 6 de l’algorithme EM pour le clustering.
Le modèle de mélange et l’algorithme EM offrent un atout de poids comparée aux autres
approches présentées précédemment. En effet celui-ci est générique du point de vue de l’hypothèse
faite sur la nature des distributions du mélange expliquant la génération de l’échantillon
X. Ainsi nous pouvons utiliser différents type de lois pour modéliser les groupes (lois gaussiennes,
multinomiales, poisson, etc.), l’algorithme reste le même, seul change le calcul explicite
de la mise à jour des paramètres du modèle.
1.5 Bilan
1.5.1 Les liens entre familles d’algorithmes de clustering
Les algorithmes présentés constituent un ensemble non exhaustif d’approches classiques
pour le clustering dédié aux données conventionnelles. Bien d’autres approches existent parmi
ces familles d’algorithmes, et la plupart des approches détaillées ont été étendues. De même
d’autres familles de méthodes existent, comme les méthodes basées sur :
– les grilles [Gan et al., 2007b] ;
– la factorisation de matrices non négatives noté NMF [Ding et al., 2005], [Li, 2008] ;
– les exemples (les individus) et le passage de messages entre eux [Frey and Dueck, 2007],
[Lashkari and Golland, 2008].
La dernière de ces familles offre de belles perspectives et de la nouveauté concernant la modélisation
de l’objectif du clustering, que l’on peut qualifier de micro, car se basant uniquement
sur les individus et les interactions possibles entre eux pour former une organisation globale. Les
autres familles sont plutôt macro et on définit en général un modèle global de groupes auquel
on cherche à conformer l’ensemble des individus. On dira dans le cas général, qu’une famille
est gouvernée par un paradigme qui correspond à une théorie majoritairement employée pour
42 CHAPITRE 1. CLASSIFICATION NON SUPERVISÉE
résoudre l’objectif posé. L’algèbre linéaire est majoritairement présente dans les approches classiques
par partitionnement, de même que l’algorithmique et la théorie des graphes l’est pour les
approches basées sur le voisinage et la recherche de groupes denses. Enfin la théorie des probabilités
et la statistique offrent un cadre privilégié pour les approches intégrant l’incertitude pour
produire un modèle plus robuste et permettant d’obtenir des partitions plus adaptées et interprétables.
Quoiqu’il en soit, ces différents paradigmes convergent parfois et certains travaux participent
alors à une unification de différentes approches de clustering. On notera le résultat majeur
de l’équivalence entre KM et une variante classificatoire de EM [Celeux and Govaert, 1992]
pour l’estimation des paramètres d’un mélange de gaussiennes homoscédastiques (de variance
constante pour tous les groupes et pour toutes les dimensions à l’intérieur de ces groupes). La
variante classificatoire de EM consiste simplement à appliquer la règle MAP à chaque étape
de l’algorithme, remplaçant ainsi, pour chaque individu xi le vecteur des probabilités a posteriori
par un vecteur indicateur où un unique 1 indique quelle est la composante du mélange
ayant le plus de chance de générer xi une fois les paramètres établis. De même, des travaux
récents montrent l’équivalence au sein du cadre théorique des approches NMF, d’un clustering
par factorisation de matrice non négative et de SC [Ding et al., 2005]. Dans le même esprit, et
en utilisant les outils similaires de l’algèbre linéaire, des travaux ont également unifié une généralisation
de KM avec plusieurs heuristiques de partitionnement de graphes dans le contexte de
SC [Dhillon et al., 2005]. On notera aussi certains travaux qui combinent judicieusement des
arguments de divers paradigmes afin d’en exploiter les meilleurs parts comme l’approche des
graphes gaussiens génératifs [Aupetit, 2006] qui permet de capturer à la fois la topologie des
données et de plus de donner une interprétation statistique des résultats.
Les travaux d’unification en clustering sont très importants car ils aident à réorganiser les
recherches dans cette thématique où la production scientifique est parmi les plus prolifiques et
où il est difficile de suivre en temps réel l’intégralité des approches proposées [Jain, 2008]. Après
cette perspective positive des travaux autour du clustering, nous nous intéressons dorénavant à
certains points qui restent satellites autour du clustering mais qui constituent des problématiques
de recherche à eux seul pour enrichir les techniques de classification non supervisée :
– les paramètres types des approches de clustering que sont le nombre de groupes, et également
dans une certaine mesure le choix de la mesure de proximité, et la capacité des
approches présentées précédemment à tenir compte d’autres mesures que celles pour lesquelles
elles ont été développées (en général la norme L2) ;
– le problème d’évaluer ce qu’est une bonne partition de l’ensemble d’individus X. En effet
ce point est central et à l’heure actuelle, personne n’est encore capable de définir une
mesure d’évaluation d’une bonne partition universelle et absolue, hormis l’évaluation par
un expert dans un contexte complètement applicatif ;
– le problème du choix de l’algorithme dès lors que l’on est confronté à un ensemble d’individus
que l’on cherche à regrouper, sans hypothèses ou expertises supplémentaires.
1.5.2 Le problème du nombre de groupes
Le premier problème est relatif principalement aux approches par partitionnement strict
ou floue en un nombre de groupes fixé. Dans un cadre complètement non supervisé, aucune
connaissance sur ce nombre de groupes n’est disponible et celui-ci doit automatiquement être
appris à partir des données. Une première approche consiste à appliquer un même algorithme
pour différentes valeurs du nombre de groupes nk et retenir celui pour lequel la valeur du critère
objectif est optimale. Ceci est valable pour les approches où la fonction objectif est connue,
par exemple le critère inertiel de KM. Le principal problème de cette procédure est que dans
la plupart des cas, le nombre de groupes optimal tend à produire une solution dégénérée. Le
nombre de groupes pour obtenir un clustering optimal de X au sens du critère QKM par KM est
1.5. BILAN 43
jX j i.e. chaque individu constitue son propre groupe. La même remarque prévaut lors de l’observation
du critère de maximum de log-vraisemblance dans le cadre des modèles de mélange
pour un nombre de composantes croissant. Afin de pallier à ce genre de problème, des auteurs
ont proposé, notamment dans ce dernier cadre, d’intégrer le nombre de composantes comme un
paramètre du modèle, puis de pénaliser le critère classique de log-vraisemblance pour des paramètres
__ optimaux, par une fonction des degrés de libertés du nombre de groupes, traduisant
la complexité du modèle au sens de la Statistique. Ainsi, dans l’exemple des modèles de mélange,
si __ correspond aux paramètres optimaux du critère de log-vraisemblance L(_;X;Z)
et Nk est la variable aléatoire associée au nombre de groupes, alors plusieurs mesures de la
log-vraisemblance pénalisée L(Nk) peuvent être suggérées :
– le critère d’information de Akaike AIC [Aikake, 1973] :
L(Nk) = 2dl(Nk) 2L(__;X;Z)
– le critère d’information bayésienne BIC [Schwarz, 1978] :
L(Nk) = ln(n)dl(Nk) 2L(__;X;Z)
où dl(Nk) correspond au degré de liberté de Nk et est déterminé par le nombre de paramètres
nécessaires pour estimer la log vraisemblance L(__;X;Z).
Ces critères constituent le socle des différentes approches de sélection de modèles en Statistique,
qui consiste à prendre, parmi une population de modèles (par exemple, parmi les modèles
de mélange de nombre de composantes différentes) celui qui est le plus en adéquation avec les
observations. Pour finir, ils permettent d’éviter le sur-apprentissage induit par l’augmentation
du nombre de composantes du mélange en trouvant un bon compromis. D’autres techniques
enfin proposent de ne pas pénaliser le critère de vraisemblance classique, mais de repérer une
faible variabilité, statistiquement significative du critère de vraisemblance entre deux valeurs de
nk données [Biernacki, 2009]. Ces méthodes, utilisables quelquesoit l’algorithme de clustering
formant une partition en nk groupes en adaptant le critère, se dénomment plus communément
les méthodes du coude.
1.5.3 Le problème de l’évaluation
L’évaluation d’un résultat de clustering est toujours un problème ouvert, car on ne connaît
pas toujours l’étiquette des individus. On ne peut en général pas se comparer à une classification
de référence correspondant aux classes des individus que l’on aimerait retrouver par l’approche
de clustering employée. Cependant, même lorsqu’une telle classification cible existe, de multiples
moyens existent pour effectuer la comparaison. Les différents critères d’évaluation sont
présentés en trois familles :
– les critères internes n’exploitant aucune classification de référence ;
– les critères externes visant à quantifier l’écart ou la similarité entre le clustering produit et
la classification de référence ;
– les critères subjectifs, car relatifs à un algorithme ou une famille d’algorithmes particuliers.
Les critères internes et les critères subjectifs ne seront pas présentés dans la mesure où
les approches proposées ont systématiquement été évaluées via une classification de référence.
Cependant, leurs descriptions peuvent être trouvées en détail dans [Gan et al., 2007a].
Lorsque toutes les étiquettes de classes sont disponibles, on peut utiliser un critère d’évaluation
externe mesurant l’adéquation entre la classification obtenue C par l’algorithme de clustering
et la classification de référence C. De nombreuses méthodes existent et nous relaterons ici
celles qui ont été utilisées pour valider les différentes contributions, ainsi que celles qui participent
au coeur de quelques approches qui seront développées par la suite dans les états de l’art
spécifiques à chaque problématique traitée.
44 CHAPITRE 1. CLASSIFICATION NON SUPERVISÉE
1.5.3.1 Mesures basées sur l’énumération
Soient M le nombre de paires d’individus et tp, fp, tn, fn les nombres de vrais-positifs,
faux-positifs, vrais-négatifs, faux-négatifs tels que :
– tp est le nombre de paires d’individus regroupés à la fois dans le clustering C et dans la
classification de référence C;
– fp est le nombre de paires d’individus regroupés dans le clustering C mais non dans la
classification de référence C;
– tn est le nombre de paires d’individus dans des groupes différents dans C (le clustering
obtenu) et dans C (la classification de référence);
– fn est le nombre de paires d’individus dans des groupes différents dans C mais ensemble
dans la classification de référence C.
La relation liant M, tp, fp, tn et fn est :
M = tp + fp + tn + fn =
n(n 1)
2
Indice de Rand. L’indice de Rand est obtenu en observant la proportion de paires d’individus
classés de la même manière dans C et dans C :
Rand(C; C) =
tp + tn
M
(1.19)
Indice de Jaccard. L’indice de Jaccard s’exprime comme le nombre de paires correctement
regroupés sur le nombre de paires d’individus identifiés ensemble dans C ou dans C :
Jaccard(C; C) =
tp
M tn
(1.20)
F-mesure. La F-mesure combine précision et rappel sur les paires d’individus. La précision
reflète la proportion de paires correctement identifiées sur le nombre de paires d’individus retrouvées
dans C :
Précision(C; C) =
tp
tp + fp
Le rappel correspond à la proportion de paires correctement identifiées par rapport au
nombre de paires d’individus classés ensemble dans C :
Rappel(C; C) =
tp
tp + fn
La F-mesure est alors une mesure mélangeant linéairement les deux critères par :
F-mesure(C; C; _) =
(_2 + 1) _ Précision(C; C) _ Rappel(C; C)
_2 _ Précision(C; C) + Rappel(C; C)
(1.21)
Les indices de Rand, Jaccard et la F-mesure ont des valeurs d’autant plus fortes que le clustering
obtenu est de bonne qualité relativement à la classification de référence.
1.5. BILAN 45
1.5.3.2 Mesures statistiques basées sur l’entropie.
Soient _k, _c et _ck les nombres d’individus respectivement dans le groupe Ck, dans la classe
Cc et dans l’intersection de Ck et Cc:
_k =
jCkj
n
_c =
jCcj
n
_ck =
jCk \ Ccj
n
Les différentes mesures suivantes visent à quantifier l’information semblable dans le clustering
produit C et la classification de référence C.
Entropie moyenne. Soit H(Ck; Cc) l’entropie d’information conjointe du groupe Ck et de la
classe Cc:
H(Ck; Cc) = _ck _ log(_ck) (1.22)
L’entropie d’information moyenne AvgEnt utilise les étiquettes de classes pour calculer la
moyenne de l’impureté de chaque groupe pondérée par la taille de ceux-ci:
AvgEnt(C; C) =
Xnk
k=1
_k
Xnc
c=1
H(Ck; Cc)
!
On appelle également information jointe entre Ck et Cc notée I(Ck; Cc), quantité négative
correspondante à la négentropie conjointe :
I(Ck; Cc) = H(Ck; Cc)
Information mutuelle. L’information mutuelle normalisée quantifie l’information statistique
partagée entre deux distributions (par exemple les distributions des étiquettes de groupes et des
étiquettes de classes), elle peut être définie via la mesure d’entropie.
Soit H(C; C) l’entropie conjointe des partitions C et C:
H(C; C) =
Xnk
k=1
Xnc
c=1
H(Ck; Cc) (1.23)
Soit H(C) et H(C) les entropies des partitions C et C:
H(C) =
Xnk
k=1
_k _ log(_k)
H(C) =
Xnc
c=1
_c _ log(_c)
L’information mutuelle normalisée de façon arithmétique s’exprime alors par:
NMI(C; C) = 2 _
MI
H(C) + H(C)
(1.24)
avec
MI(C; C) = H(C) + H(C) H(C; C) (1.25)
Soient pCk et pCc les distributions des individus sur le groupe Ck et sur la classe Cc respectivement
où :
46 CHAPITRE 1. CLASSIFICATION NON SUPERVISÉE
– pCk (Zi = k) vaut 1 si xi 2 Ck et 0 sinon (Zi est la variable correspondant à l’étiquette de
xi dans le clustering Ck) ;
– pCc(l(xi) = c) vaut 1 si xi 2 Cc et 0 sinon (l(xi) est la variable correspondant à l’étiquette
de xi dans la classe Cc).
On appelle également divergence de Kullback-Leibler (KL) entre Ck et Cc la mesure positive
quantifiant la dissemblance entre les distributions des individus sur les groupes pCk et la
distribution des individus sur les classes pC :
KL(pCk jj pCc) =
Xn
i=1
pCk (Zi = k) _ log
_
pCk (Zi = k)
pCc(l(xi) = c)
_
(1.26)
qui se généralise pour la mesure de dissimilarité entre le clustering C et la classe C par :
KL(C jj C) =
Xnk
k=1
Xnc
c=1
KL(pCk jj pCc) (1.27)
Soit pCk;Cc la distribution jointe des individus sur l’intersection du groupe Ck et de la classe
Cc avec pCk;Cc(Zi = k; l(xi) = c) vaut 1 si xi 2 Ck et xi 2 Cc et 0 sinon. L’information mutuelle
peut alors se réécrire comme la divergence de Kullback-Leibler entre la distribution jointe pCk;Cc
des clusterings et des classes, et la distribution jointe sous hypothèse d’indépendance pCk _ pCc
entre les clusterings et les classes :
MI(C; C) = KL(pCk;Cc jj pCk _ pCc)
Selon (1.24), l’information mutuelle normalisée peut alors être réécrite par :
NMI(C; C) = 2 _
KL(pCk;Cc jj pCk _ pCc)
H(C) + H(C)
L’entropie moyenne a des valeurs d’autant plus faibles que le clustering obtenu est en adéquation
avec la classification de référence, tout comme la divergence de Kullback-Leibler. À l’opposé,
plus la valeur d’information mutuelle est élevée, plus le résultat est conforme à la classification.
1.5.4 Le choix de la proximité
Tout algorithme de clustering repose sur une mesure permettant de quantifier la proximité
entre deux individus. Dans le cas le plus général, les données correspondent à un ensemble de
mesures de type flottant pour chaque individu xi 2 X, ainsi xi 2 Rp. De ce fait la mesure choisie
correspond au carré d’une distance, la plupart du temps euclidienne jj:jj2 qui correspond à la
métrique la plus usuelle pour l’espace Rp. Néanmoins, il peut arriver dans diverses applications
que les descriptions des individus soient de type symbolique ou catégorielle ou encore que l’on
désire utiliser une mesure de proximité ne se comportant pas comme une distance dans l’espace
de description de X. Dans de tels cas, on définit de nouvelles mesures dites de similarité ou
de dissimilarité ayant chacune des propriétés particulières telles que la minimalité, la symétrie,
l’identité ou l’inégalité triangulaire.
Soit f : X _ X 7! R une fonction de proximité, on définit les propriétés:
minimalité : f vérifie la minimalité ssi
8xi 2 X; f(xi; xi) = 0
maximalité : f vérifie la maximalité ssi
8(xi; xj ; xk) 2 X3; f(xi; xi) _ f(xj ; xk)
1.5. BILAN 47
symétrie : f vérifie la symétrie ssi
8(xi; xj) 2 X2; f(xi; xj) = f(xj ; xi)
identité : f vérifie l’identité ssi
8(xi; xj) 2 X2; f(xi; xj) = 0 ) xi = xj
inégalité triangulaire : f vérifie l’inégalité triangulaire ssi
8(xi; xj ; xk) 2 X3; f(xi; xj) _ f(xi; xk) + f(xk; xj)
Parmi les diverses familles de proximités existantes :
– une distance telle la distance euclidienne jj:jj2 satisfait la minimalité, la symétrie, l’identité
et l’inégalité triangulaire;
– une dissimilarité satisfait la minimalité et la symétrie;
– une similarité satisfait la maximalité et la symétrie.
1.5.5 Le choix de l’algorithme
Une autre problématique de choix survient, notamment lorsque les informations de proximités
sont fixées, et que l’on ne parvient pas à obtenir un clustering satisfaisant avec une approche
particulière. Ainsi les données correspondent alors à une matrice de similarité, de dissimilarité
ou de distance. L’obtention d’une solution différente et plus intéressante pour le praticien des
techniques de clustering peut se faire par l’application d’un autre algorithme, capable de prendre
en compte la matrice de proximité constituant les données. Parmi les familles d’approches présentées,
les algorithmes hiérarchiques DIANA et AGNES, ainsi que DBSCAN et SC ne nécessitent
pas de modifications majeures pour être applicables. Les autres méthodes sont fondées sur la distance
euclidienne et nécessitent d’être étendues pour pouvoir prendre en compte des mesures
de similarité afin de garantir les mêmes propriétés (de convergence notamment). Un exemple
type d’un tel travail est l’extension de KM en KM à noyau ou KKM [Kulis et al., 2005] qui sera
présenté plus en détail par la suite, mais dont l’idée est de définir une mesure de distance euclidienne
à partir des informations de proximités (en général, de similarités). Enfin, de récents
paradigmes dont il sera question par la suite proposent de ne pas nécessairement choisir un
algorithme, mais d’appliquer plusieurs algorithmes différents. Le choix en est alors laissé à l’utilisateur
entre :
– avoir plusieurs résultats de clusterings différents pour un même ensemble d’individus mais
tous de bonne qualité au sens d’une évaluation particulière ;
– choisir le meilleur clustering parmi les différents résultats ;
– construire un clustering qui réalise un accord entre les divers résultats possibles.
Ces différents choix sont autant de problématiques auxquelles les contributions proposées
dans la suite visent à apporter des éléments de réponse. Ces apports constituent chacun un
chapitre de ce travail de thèse.
Classification non supervisée 2
multi-vues centralisée
Sommaire
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.2 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.3 Approches centralisées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.3.1 MVDBSCAN : DBSCAN multi-vues . . . . . . . . . . . . . . . . . . . . . 53
2.3.2 COFC : clustering flou collaboratif . . . . . . . . . . . . . . . . . . . . . 54
2.3.3 FCPU : clustering flou dans les univers parallèles . . . . . . . . . . . . 56
2.3.4 MVADASOM : SOM multi-vues via les distances adaptatives . . . . . . 58
2.3.5 COMRAF*: champs aléatoires combinatoires de markov . . . . . . . . 61
2.3.6 COEM : estimation d’un modèle de mélange pour données multi-vues . 63
2.4 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
2.4.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
2.4.2 COFKM : clustering flou multi-vues . . . . . . . . . . . . . . . . . . . . 66
2.4.3 COKFKM : clustering flou multi-vues à noyaux . . . . . . . . . . . . . . 73
2.5 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
2.5.1 Données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
2.5.2 Protocole expérimental . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
2.5.3 Évaluation interne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
2.5.4 Évaluation externe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
2.6 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
2.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
50 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE
2.1 Introduction
Dans ce chapitre présentant la problématique du clustering multi-vues, les contributions
COFKM et COKFKM sont développées. Elles ont été validées par différentes communautés scientifiques
établissant des avancées dans le domaine de la Fouille de données et de l’Apprentissage
[Sublemontier et al., 2009], [Cleuziou et al., 2009], [Sublemontier et al., 2011a]. Le contexte
scientifique amenant les propositions sera établi. L’étude d’une famille d’algorithmes de clustering
multi-vues rencontrées dans l’état de l’art permettra de compléter d’un point de vue technique
l’appréhension du problème et sa résolution. Les différentes techniques, dites centralisées
sont pour la grande majorité basées sur un principe de minimisation d’un désaccord ou, de
manière équivalente, de maximisation d’un accord. À l’instar des algorithmes présentés dans le
chapitre 2, elles seront détaillées selon leur nature discriminative, générative, ou purement algorithmique.
Par suite, les contributions proposées seront introduites, formalisées et recentrées au
coeur des études de l’état de l’art. Les études empiriques réalisées permettent de valider l’intérêt
pratique des différentes contributions, et la discussion permettra de présenter les avantages et
inconvénients de celles-ci. Pour finir, la conclusion dressera les perspectives d’amélioration du
modèle.
L’objectif des approches de clustering multi-vues basées sur la réduction de désaccord est
de produire une structure permettant d’organiser les données décrites par plusieurs représentations.
Celle-ci correspond majoritairement à une partition de taille fixée issue d’une recherche
de consensus entre plusieurs algorithmes appliqués sur les différentes vues des données. La notation
suivante permet d’harmoniser les formalisations des différentes approches et participe à
une meilleure compréhension des apports :
NOTATION
n : le nombre d’individus à regrouper.
n(r)
p : le nombre d’attributs décrivant les individus dans la vue r.
nk : le nombre de groupes à identifier.
nc : le nombre de classes associé aux données.
X = fx1; :::; xng : l’ensemble des n individus à partitionner.
X(r) 2 Rn_n(r)
p : la représentation matricielle de X dans la vue r.
x(r)
i 2 Rn(r)
p : la représentation vectorielle de l’individu xi dans la vue r.
C = fC1; :::;Cnkg : la structure de clustering en nk groupes à construire.
_ = fC(1); :::;C(nr)g : l’ensemble des nr clusterings locaux dans chaque vue.
C(r) = fC(r)
1 ; :::;C(r)
nk g : l’ensemble des nk groupes du clustering dans la vue r.
C = fC1; :::; Cncg : l’ensemble des nc classes d’individus à retrouver.
d(r)(xi; xj) : la distance au sens général entre deux individus xi et xj dans la vue r.
jjx(r)
i x(r)
j jjp : la distance de Minkowski entre deux individus xi et xj dans la vue r.
2.2 Contexte
Le clustering multi-vues et l’hypothèse du consensus. La problématique du clustering multivues
peut être définie ainsi : À partir d’un ensemble de tableaux relationnels et/ou descriptionnels
(les vues), trouver une partition stricte de l’ensemble d’individus en tenant compte
simultanément de l’ensemble des tableaux. Les différentes vues des données induisent naturellement
des clusterings propres de bonne qualité et différents. L’hypothèse du consensus traduit
le fait qu’une solution de clustering différente, obtenue par la prise en compte simultanée de
2.2. CONTEXTE 51
l’ensemble des vues, doit être de meilleure qualité. En particulier, cette solution satisfait un accord,
ou un consensus entre les clusterings locaux potentiels. Cette problématique s’inscrit dans
un cadre large de données :
– réparties sur plusieurs sites ;
– pour lesquelles les descriptions sont accessibles par l’intermédiaire de sources multiples ;
– décrites par des groupes de variables de types différents ;
– décrites dans le temps ou plus généralement dans des conditions différentes.
Les applications. Parmi les nombreux domaines d’applications présentés par exemple dans
l’introduction, les approches proposées ont été appliquées à la reconnaissance de chiffres manuscrits
et à la classification automatique de pages web.
Dans le premier type d’application, le problème est que les individus, qui sont des instances
d’images de caractères manuscrits peuvent être numériquement décrits selon différentes mesures
propres à l’analyse et au traitement du signal (coefficients de Fourier, coefficients de
Karhunen-Loève, intensité des pixels ou autre descripteurs morphologiques). Chacune de ces
mesures capture différents aspects de la forme des chiffres. L’établissement d’une mesure de
proximité fondée sur chacune de ces descriptions est un problème car elles sont souvent sensibles
à des transformations mineures des individus. L’intensité des pixels est sensible à la translation
et les descriptions morphologiques sont insensibles à la rotation rendant par exemple
difficile la différenciation du chiffre « 6 » et du chiffre « 9 ». L’utilisation conjointe de différentes
représentations des individus peut aider à retrouver les bonnes classes.
Dans le second cas, la tâche est d’effectuer un regroupement de différentes pages où chaque
page est tirée d’une université parmi quatre universités américaines. Chaque page correspond
soit à un étudiant, un département, une faculté, un projet, un membre salarié ou un cours. De
ces pages sont considérées le contenu textuel, pour lequel des mesures de similarité adaptées
peuvent être construites afin de retrouver les classes d’origine. Cette représentation est enrichie
d’un autre vocabulaire émanant cette fois du texte écrit dans les liens entrant vers chacune des
pages. Cet aspect supplémentaire des pages peut aider le clustering en permettant d’identifier
plus facilement les classes.
Les différents principes d’intégration. En général, même si la mise à disposition d’informations
supplémentaires complexifie en général les approches, elles peuvent être vues au contraire
comme un moyen supplémentaire de réussir à identifier les bonnes classes. Cela devient donc
un atout de pouvoir disposer de plusieurs sources d’information notamment lorsque prises isolément
celles-ci ne sont pas suffisantes pour obtenir un clustering cible souhaité.
Dans ce contexte, il convient alors de combiner les informations de chacune des vues par l’intermédiaire
d’un processus de fusion consistant à identifier l’accord entre les vues et à réduire le
conflit. Plusieurs stratégies de fusion peuvent être appliquées, en amont, en aval, ou pendant le
processus de classification. La fusion en amont ou a priori consiste à combiner les différentes représentations
des individus, soit en concaténant les descripteurs lorsque les données sont de type
vectoriel ou attribut-valeur, soit en effectuant une combinaison (le plus souvent linéaire) des
différentes valeurs de proximité lorsque les données sont relationnelles [Heer and Chi, 2002],
[Yamanishi et al., 2004].
La fusion en aval ou a posteriori [Reza et al., 2009] vise plutôt à construire localement un
clustering adapté dans chaque représentation puis à appliquer un processus de conciliation entre
les différentes partitions pour parvenir à un clustering consensus. Ce problème est étudié plus
en détail dans le chapitre 4. Les différentes approches sont schématisées dans la figure 2.1.
52 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE
Données ...
vue 1
Données
vue 2
Données
vue V
Partition
consensus
Clustering
Fusion
Données ...
vue 1
Données
vue 2
Données
vue V
Clustering
vue 1
Clustering
vue 2
Clustering
vue V
Fusion
Partition
consensus
Données ...
vue 1
Données
vue 2
Données
vue V
Partition
consensus
Fusion
+
Clustering
FIGURE 2.1 —Les différentes fusions du clustering multi-vues. Dans l’ordre, ci-dessus, les fusions a priori,
a posteriori et dans le processus de clustering.
Ce chapitre concerne les approches réalisant un consensus pendant le processus de clustering.
Toutes fonctionnent sur le principe d’une minimisation d’un terme de désaccord, ou de manière
duale la maximisation d’une fonction d’accord entre les clusterings naturels en construction localement
dans chaque vue. Cette optimisation simultanée peut être explicite via la définition
d’une fonction réalisant cet objectif, ou bien implicite via un algorithme construisant une solution
satisfaisant effectivement un tel accord. L’étude est centrée autour des approches dites
centralisées et s’inscrivant parmi les familles plutôt discriminatives et génératives. Les approches
centralisées visent à réunir dans un traitement unique, des données qui peuvent être elles décentralisées.
Historiquement, les approches développées avant la proposition des contributions
étaient soit :
locales et restreintes du point de vue de la définition du critère objectif pour garantir de
bonnes propriétés de convergence, résultant alors en une construction des groupes peu
intuitive [Pedrycz, 2002] ;
globales et plus abouties du point de vue de la formulation du problème, mais pour lequel
le problème de convergence vers une solution unique est résolu de manière artificielle et
moins élégante [Bickel and Scheffer, 2005].
Parmi les contributions proposées, COFKM vise à répondre à ces différents problèmes à
travers la définition d’un critère objectif simple, flexible, et permettant d’en dériver un algorithme
intuitif et facilement implémentable. COKFKM est une proposition permettant d’étendre
COFKM à des données relationnelles qui peuvent se retrouver couramment parmi les applications.
2.3 Approches centralisées
À l’instar des méthodes de clustering classiques, les approches multi-vues centralisées ont été
développées en suivant différents paradigmes de modélisation. On dénombre ainsi :
– les approches purement algorithmiques ;
– les approches discriminatives ou basées sur un modèle statistique graphique procédant à
l’optimisation d’un critère objectif.
Cependant, à des fins d’observation fine du phénomène de réduction du désaccord entre
les clusterings locaux de chaque vue, le second paradigme sort victorieux notamment par la
possibilité d’exprimer la recherche d’une bonne solution comme optimale d’un certain critère
objectif intégrant une mesure de ce désaccord. Les critères ainsi proposés prennent le plus souvent
la forme d’une combinaison d’un terme classique traduisant la recherche d’un clustering
2.3. APPROCHES CENTRALISÉES 53
dans chaque vue, pénalisé par un terme exprimant la recherche de l’accord entre ces différents
clusterings. Ainsi l’objectif est de trouver un compromis entre la découverte de clusterings locaux
et la recherche du consensus, selon le formalisme général suivant :
clustering multi-vues =
Xnr
r=1
objectif local(r) désaccord(_) (2.1)
Ainsi, les différentes approches qui peuvent se ramener à un formalisme de ce type seront
présentées comme des instances de celui-ci dans la suite de ce chapitre.
2.3.1 MVDBSCAN : DBSCAN multi-vues
Une des premières approches classiques étendues au cadre du traitement de données multireprésentées
est DBSCAN (cf. section 1.3.2.1), au travers l’approche de [Kailing et al., 2004],
nommée MVDBSCAN. L’idée est de définir un mécanisme de combinaison des différentes représentations
dans le but de rendre applicable l’algorithme DBSCAN. Cette applicabilité nécessite de
redéfinir les propriétés coeur et frontière des individus, centraux dans la définition des groupes.
Algorithme
Pour rappel, DBSCAN nécessite deux paramètres : _ et MinP ts. Si MinP ts est un paramètre
pouvant être défini identiquement dans toutes les représentations, _ lui ne peut rendre compte
des topologies propres à chaque représentation en étant défini de manière globale. Les auteurs
proposent alors de le définir localement pour chaque vue : _(r). Ainsi, à partir de ces paramètres,
on peut définir localement un voisinage pour chaque individu N_(r)(xi) de la manière suivante :
N_(r)(xi) = fxj 2 X j d(r)(xi; ck) _ _(r)g
Par cette formalisation locale de voisinage, les auteurs proposent alors deux types de voisinage
globaux, permettant de décider, dans un contexte plus proche de l’application de DBSCAN,
de la propriété pour un individu d’être coeur. Les auteurs proposent différents types de voisinage
selon la nature des données multi-vues. Ainsi, un voisinage de type union N[(xi) est exprimé
par :
N[(xi) =
[
r2[1::nr]
N_(r)(xi) (2.2)
De la même manière, un voisinage de type intersection N\(xi) est défini par :
N\(xi) =
\
r2[1::nr]
N_(r)(xi) (2.3)
xi 2 X est alors un individu coeur de type union (resp. intersection) si jN[(xi)j _ MinP ts
(resp. jN\(xi)j _ MinP ts). Les auteurs suggèrent de combiner par une union les représentations
dans lesquelles les données sont éparpillées, lorsqu’il est difficile de distinguer le bruit
(correspondant à des individus mal mesurés) d’une structure de groupes. Enfin, les représentations
denses, portant davantage d’informations, sont combinées par une intersection. L’algorithme
DBSCAN peut alors être employé, au choix à partir de la définition du type de voisinage
(cf. algorithme 9). Les définitions d’atteignabilité sont directement transposées des définitions
de DBSCAN et adaptées selon le type de voisinage. On notera alors indépendemment du type de
voisinage choisi :
A(xi) = fxj 2 X j xj est atteignable en densit_e par xig
Pour rappel, les individus considérés comme du bruit (mal définis ou outliers) sont désignés
par R.
54 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE
Algorithme 9 MVDBSCAN
ENTRÉES : X, MinP ts, f_(r)gr2[1::nr], type
SORTIES : C = fC1; :::;Cnkg, R
1 : Si type = union alors construire N(xi) = N[(xi) 8xi 2 X
2 : Si type = intersection alors construire N(xi) = N\(xi) 8xi 2 X
3 : C = clustering de X par DBSCAN (cf. algorithme 5) selon N.
Discussion
Cette approche souffre de plusieurs faiblesses, comme l’imposition a priori du type de combinaison
pour toutes les représentations, et la multiplicité des paramètres. Les auteurs proposent
à l’image de DBSCAN un moyen heuristique pour déterminer les valeurs locales de _ en fixant
l’autre paramètre MinP ts. En ce qui concerne la combinaison, l’approche a été étendue ultérieurement
pour pouvoir considérer simultanément une partie des représentations par union et
l’autre partie par intersection, après avoir décidé au travers de critères objectifs de la prévalence
de chacune des représentations à un type de combinaison particulier. La combinaison des
différentes représentations est représentée au moyen d’une structure d’arbre appelée arbre de
combinaison [Achtert et al., 2006].
2.3.2 COFC : clustering flou collaboratif
Le clustering flou collaboratif, développé par [Pedrycz, 2002] reprend l’approche FKM (cf.
section 1.4.1) et en dérive une variante collaborative, notée COFC, pour le contexte multi-vues,
il s’agit donc d’une approche discriminative. La collaboration entre les vues est réalisée au travers
de l’échange des degrés d’appartenances des individus aux groupes.
Objectif
[Pedrycz, 2002] propose de présenter l’objectif comme la minimisation pour une vue r donnée,
d’un critère basé sur FKM, pénalisé par une fonction de désaccord modélisant un écart entre
la partition floue locale à construire et les partitions floues provenant des autres vues (2.4). L’auteur
propose de renforcer ou diminuer l’impact de la pénalisation en introduisant une matrice
de collaboration _ telle qu’une grande valeur de _rr0 force une plus grande collaboration entre
les vues r et r0.
Le critère QCOFC s’inscrit dans le paradigme des critères pénalisés, ainsi :
QCOFC(c; u; r) = objectif local(r) + désaccord(_)
avec
objectif local(r) =
X
xi2X
Xnk
k=1
u(r)
ik
2
d2(
r)(xi; ck)
désaccord(_) = _(_; r)
Dans ce contexte le premier terme du critère, à minimiser, correspond à l’objectif local qui
est l’inertie floue semblable à QFKM à paramètre _ fixé (_ = 2). Le second terme, à minimiser
également, modélise le désaccord entre les clusterings locaux C(r) représentés par leurs centres
c(r) et leurs degrés d’appartenance u(r). Pour r donné, ce désaccord est fonction des centres c(r)
2.3. APPROCHES CENTRALISÉES 55
et mesure l’écart entre les degrés d’appartenance locaux u(r) et les degrés u(r) des autres vues,
renforcé par les variables de collaboration _(r)(r). Ainsi _ est défini par :
_(c; u; r) =
Xnr
r=1
r6=r
_(r)(r)
X
xi2X
Xnk
k=1
(u(r)
ik u(r)
ik )2d2(
r)(xi; ck)
Le problème d’optimisation associé est alors exprimé par :
min
c;u
QCOFC(c; u; r)
= min
c;u
Xnk
k=1
X
xi2X
u(r)
ik
2
d2(
r)(xi; ck) +
Xnr
r=1
r6=r
_(r)(r)
X
xi2X
Xnk
k=1
(u(r)
ik u(r)
ik )2d2(
r)(xi; ck)
s:t:
Pnk
k=1 u(r)
ik = 1 8xi 2 X
u(r)
ik _ 0 8xi 2 X; 8k 2 [1::nk]
(2.4)
Dans la version classique FKM, le critère d’inertie flou est modulé par un paramètre _ > 1
qui est ici fixé à 2 dans l’objectif de COFC, pour des raisons d’optimisation efficace du critère et
par extension, de convergence de l’algorithme d’optimisation associé au problème. De ce point
de vue, COFC ne généralise pas pleinement FKM. Ce problème est résolu par l’optimisation
alternée des différentes variables c et u.
Algorithme
À l’image de FKM, dès lors que le critère est posé, l’algorithme se déduit naturellement. En
effet le but étant de minimiser le critère objectif, l’optimal est atteint lorsque les conditions du
premier ordre sont satisfaites. Ainsi, ces conditions permettent d’établir des expressions de mise
à jour optimales des degrés d’appartenance, connaissant les prototypes des groupes :
u(r)
ik
_
=
Xnr
r=1
r6=r
_(r)(r)u(r)
ik
1 +
Xnr
r=1
r6=r
_(r)(r)
+
1
Xnk
k0=1
d2(
r)(xi; ck)
d2 (r)(xi; ck0)
(1
Xnk
k0=1
Xnr
r=1
_(r)(r)u(r)
ik0
Xnr
r0=1
_(r)(r)
) (2.5)
De la même manière, si on a à disposition les degrés d’appartenance considérés comme optimaux,
alors nous pouvons mettre à jour de manière optimale les prototypes des groupes par :
c(r)
k
_
=
X
xi2X
u(r)
ik
2
x(r)
i +
Xnr
r=1
_(r)(r)
X
xi2X
(u(r)
ik u(r0)
ik )2xi
X
xi2X
u(r)
ik
2
+
Xnr
r=1
_(r)(r)
X
xi2X
(u(r)
ik u(r0)
ik )2
(2.6)
Discussion
56 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE
Algorithme 10 COFC
ENTRÉES : X, nk, _
SORTIES : C = fC1; :::;Cnkg
1 : Appliquer FKM sur X; 8r 2 [1::nr]
2 : Mise à jour des u(r)
ik ; 8xi 2 X; 8k 2 [1::nk]; 8r 2 [1::nr] en utilisant (2.5)
3 : Mise à jour des c(r)
k ; 8k 2 [1::nk]; 8r 2 [1::nr] en utilisant (2.6)
4 : Si QCOFC change alors aller en 3
5 : Ck = fxi 2 Xju(r)
ik = max
k02[1::nk]
u(r)
ik0 g; 8k 2 [1::nk]
L’approche COFC permet d’obtenir, pour une vue r contenant des informations sur un ensemble
d’individus X, un clustering flou de X en exploitant des informations émanant d’autres
vues. Ces informations prennent la forme, pour chaque individu, d’un profil d’appartenance à
l’ensemble des groupes, tel que les nombres de groupes dans toutes les vues soient identiques :
8k 2 [1::nk]; 8r 2 [1::nr] n(r)
k = nk. Ce choix d’intégration a l’avantage de préserver la confidentialité
des données. En particulier, dans une vue r, il n’est pas possible d’accéder aux propriétés
présentes dans les autres vues. Ainsi, seuls les degrés d’appartenance sont échangés entre les
vues. Cela réduit le coût opérationnel de transfert d’informations par le réseau entre les différentes
parties des données présentes sur ces différents sites.
Néanmoins, l’approche, visant à étendre FKM, ne peut le faire complètement (choix de _).
De plus, malgré l’aspect intuitif et facilement interprétable du critère objectif à optimiser, celuici
induit des formules de mises à jour des variables du problème d’optimisation, elles, très peu
intuitives. Enfin, lorsque l’on cherche un clustering collaboratif à partir d’une vue r, il n’est
pas précisé si les informations provenant des autres vues sont immuables ou si elles évoluent
également en parallèle. Quoiqu’il en soit, il n’y a pas de processus de construction des groupes
réellement global, où les groupes dans chaque vue sont construits simultanément pour tendre
vers une solution consensus bien définie comme l’optimale d’une fonction globale sur les vues.
2.3.3 FCPU : clustering flou dans les univers parallèles
Dans le même esprit que l’approche COFC, d’autres propositions ont pour objectif d’étendre
FKM au cadre des représentations multiples. L’approche de clustering flou dans les univers parallèles
[Wiswedel and Berthold, 2007], notée FCPU a pour objectif de trouver une organisation
globale en exploitant simultanément l’ensemble des vues disponibles, appelées univers parallèles.
L’idée principale que l’on considère ici est que les individus ne contribuent pas de manière
équivalente à la définition des groupes dans les différentes représentations. Les auteurs proposent
alors d’introduire une variable modélisant pour chaque individu sa contribution à la
définition des groupes dans chaque vue. Cela permet d’observer leur apport aux processus de
clusterings locaux, qui sont réalisés simultanément.
Objectif
Les auteurs formalisent la recherche de l’ensemble des degrés d’appartenance flous (dans
toutes les vues) comme l’optimum d’un critère (QFCPU) basé sur une combinaison linéaire des
inerties floues (type FKM) locales, pondérées par les contributions des individus aux représentations
:
QFCPU(c; u; v) =
Xnr
r=1
objectif local(r)
2.3. APPROCHES CENTRALISÉES 57
avec
objectif local(r) =
Xnr
r=1
X
xi2X
v(r)
i
Xnk
k=1
u(r)
ik
_
d2 (r)(xi; ck)
Par rapport à la forme globale des critères objectifs des approches centralisées, on peut noter
que la recherche d’un accord ne fait pas parti de l’objectif global, dans la mesure où les auteurs
se placent dans le cadre où tous les groupes ne sont pas significativement identifiables dans
chaque représentation. Le problème d’optimisation correspondant est alors :
min
c;u;v
QFCPU(r) =
Xnr
r=1
X
xi2X
v(r)
i
Xnk
k=1
u(r)
ik
_
d2 (r)(xi; ck)
s:t:
Pnk
k=1 u(r)
ik = 1 8xi 2 X; 8r 2 [1::nr] Pnr
r=1 v(r)
i = 1 8xi 2 X
u(r)
ik _ 0 8xi 2 X; 8r 2 [1::nr]; 8k 2 [1::nk]
v(r)
i _ 0 8xi 2 X; 8r 2 [1::nr]
(2.7)
La solution localement optimale est encore une fois déterminée par optimisation alternée
sur les différentes variables et son obtention est complètement dérivée du critère.
Algorithme
De manière similaire à COFC, le critère objectif, intuitif, permet de dériver un algorithme
simple pour chercher un optimum local. Partant d’un ensemble de valeurs initiales des variables
du problème d’optimisation (prototypes, degrés d’appartenance et contributions), chacune des
variables peut être ré-estimée de manière optimale par une formule issue de la résolution du
système émanant de la satisfaction des conditions du premier ordre. Ainsi, pour des valeurs de
prototypes et de contributions fixées, les nouveaux degrés d’appartenance sont mis à jour par :
u(r)
ik
_
=
_
d2 (r)(xi; ck)
_1=(1_)
Xnk
k0=1
_
d2 (r)(xi; ck0)
_1=(1_)
(2.8)
ce qui correspond exactement à la mise à jour des degrés d’appartenance de FKM dans la
vue r.
De la même manière, en fixant les degrés d’appartenance et les contributions, et en établissant
la nature de la distance d(r), les nouveaux prototypes sont appris par :
c(r)
k
_
=
X
xi2X
v(r)
i
u(r)
ik
_
xi
X
xi2X
v(r)
i
u(r)
ik
_ (2.9)
pour une distance euclidienne d(r)(xi; ck) = jjxi ckjj2. Chaque centre c(r)
k devient alors le
barycentre des individus, pondérés par leur degré d’appartenance au groupe Ck, et pondérés
également par leur contribution au clustering dans la vue r.
58 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE
Enfin, pour les degrés d’appartenances et prototypes courants connus, les contributions sont
réévaluées par :
v(r)
i
_
=
_Xnkr
k=1
u(r)
ik
_
d2 (r)(xi; ck)
_1=(1)
Xnr
r0=1
_nXkr0
k=1
u(r0)
ik
_
d2 (r0)(xi; ck)
_1=(1)
(2.10)
Algorithme 11 FCPU
ENTRÉES : X, fn(r)
k gr2[1::nr], _,
SORTIES : C = fC1; :::;Cnkg
1 : Initialisation des n(r)
k centres de groupes fc(r)
1 ; :::; c(r)
nk g dans la vue r
2 : Mise à jour des u(r)
ik ; 8xi 2 X; 8k 2 [1::nk]; 8r 2 [1::nr] en utilisant (2.8)
3 : Mise à jour des c(r)
k ; 8k 2 [1::nk]; 8r 2 [1::nr] en utilisant (2.9)
4 : Mise à jour des v(r)
i ; 8xi 2 X; 8r 2 [1::nr] en utilisant (2.10)
5 : Si QFCPU change alors aller en 2
6 : Ck = fxi 2 Xju(r)
ik = max
k02[1::nk]
u(r)
ik0 g; 8k 2 [1::nk]
Discussion
FCPU se place dans un cadre général où l’on suppose que les diverses vues des individus
sont insuffisantes isolément pour identifier l’ensemble des classes. Ainsi, tous les individus ne
sont pas utiles localement pour représenter les groupes. Enfin le critère objectif est intuitif, et
contrairement à COFC, les mises à jour des paramètres le sont aussi.
Néanmoins, même si l’introduction de la variable permettant de capturer la contribution
naturelle des individus à la définition des groupes est une idée à retenir, plusieurs problèmes se
posent. En effet, un même individu pourrait avoir une forte contribution au clustering dans toutes
les représentations, ou bien être un individu atypique i.e. ne devant naturellement contribuer à
la définition d’aucun groupe. Dans les deux cas, la contrainte de sommation à 1 des contributions
conduirait à une distribution uniforme des valeurs de ces contributions. Ceci est gênant du point
de vue de l’interprétabilité de l’apport de chaque individu pour chaque vue, ce qui est un objectif
souhaité de l’approche.
2.3.4 MVADASOM : SOM multi-vues via les distances adaptatives
Toujours parmi les extensions d’algorithmes classiques, [dos S. Dantas and de Carvalho, 2011]
ont développé l’approche batch-SOM (cf. section 1.3.2.2) adaptative dédiée au traitement de
plusieurs matrices de dissimilarités, notée MVADASOM. L’objectif est de trouver une carte autoorganisatrice
unique permettant d’obtenir un clustering des individus multi-représentés en exploitant
simultanément les différentes vues.
Objectif
Les auteurs proposent de modifier dans le critère initial QSOM la mesure de dissimilarité utilisée,
en la remplaçant par une moyenne pondérée des dissimilarités disponibles pour chaque
2.3. APPROCHES CENTRALISÉES 59
représentation, notée Dwk , définie formellement par :
Dwk (xi; ck) =
Xnr
r=1
w(r)
k d(r)(xi; ck) (2.11)
Selon le formalisme des approches centralisées, le critère QMVADASOM s’exprime comme une
somme d’objectifs locaux, le consensus étant imposé par la dissimilarité globale aux centres :
QMVADASOM =
Xnr
r=1
objectif local(r)
avec :
objectif local(r) =
X
xi2X
Xnk
k=1
K(ck; f_(xi))w(r)
k d(r)(xi; ck)
où ck 2 X est le k-ième neurone et le même pour toutes les vues et les poids w(r)
k permettent de
donner une importance relative aux neurones selon les représentations.
Ainsi le problème d’optimisation se formalise comme la recherche du minimum du critère
QMVADASOM :
min
c;w
QMVADASOM(c;w) = min
c;w
Xnk
k=1
X
xi2X
K(ck; f_(xi))Dwk (xi; ck)
et la solution optimale s’obtient par un algorithme similaire à celui des SOM.
Algorithme
L’idée est toujours de trouver les nk neurones ou prototypes optimaux, identiques pour toutes
les représentations puisque ceux-ci sont évalués selon la mesure de dissimilarité globale (2.11).
De plus ces prototypes sont choisis non pas dans l’espace dans lequel sont distribués les individus
de X, mais parmi X lui-même, notamment car une description explicite de X dans un espace
vectoriel n’est pas fourni. Ainsi les prototypes correspondent à des individus bien précis de
l’échantillon. L’inertie est pondérée par une fonction K quantifiant toujours, pour un terme
de l’inertie donné (en fixant k et i), une similarité entre le neurone concerné ck et le neurone le
plus représentatif de l’individu concerné f_(xi). Ce dernier est obtenu par:
f_(xi) = arg min
c2fc1;:::;cnk
g
Xnk
k=1
X
xi2X
K(ck; f_(xi))Dwk (xi; ck) (2.12)
Les auteurs proposent d’évaluer la similarité entre deux neurones ci et cj par:
K(ci; cj) =
ejjcicj jj21
_(t)2
La similarité K(ck; f_(xi)) est maximale lorsque f_(xi) = ck, ainsi K(ck; f_(xi)) = 1. La variable
_(t) traduisant une température, est fonction du nombre d’itérations souhaité tmax et de l’itération
courante t. Elle permet de faire évoluer les valeurs de similarité plus rapidement, pour des
raisons de convergence.
_(t) = _f
_i
_f
_ t
tmax
60 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE
Algorithme 12 batch-MVADASOM
ENTRÉES : X, nk, G, _i, _f , tmax
SORTIES : C = fC1; :::;Cnkg
1 : t = 1 et initialiser aléatoirement les nk neurones fc1; :::; cnkg
2 : Initialiser w(r)
k = 1; 8k 2 [1::nk]; 8r 2 [1::nr]
3 : Mise à jour de f_(xi); 8xi 2 X selon (2.12)
4 : Mise à jour des neurones ck; 8k 2 [1::nk] selon (2.14)
5 : Mise à jour des w(r)
k ; 8k 2 [1::nk]; 8r 2 [1::nr] selon (2.13)
6 : Si QMVADASOM change t = t + 1 et aller en 3.
7 : Ck = fxi 2 Xjf_(xi) = ckg 8k 2 [1::nk]
où _i et _f sont des bornes définies a priori et correspondante respectivement à la température
initiale de la carte, et à la température finale permettant d’atteindre la convergence. La détermination
des neurones les plus représentatifs f_(xi) permet de réévaluer les contributions des
groupes aux différentes vues, qui est traduit par la variable w(r)
k calculée de manière optimale
par l’équation:
w(r)
k
_
=
_Ynr
r=1
X
xi2X
_
K(ck; f_(xi))d(r)(xi; ck)
__ 1
nr
X
xi2X
_
K(ck; f_(xi))d(r)(xi; ck)
_ (2.13)
Ainsi, plus un neurone ck est représentatif de l’ensemble des individus xi 2 X dans une vue
relativement aux autres, plus la valeur de contribution augmente, car le terme d’inertie du dénominateur
est plus faible, à valeur du numérateur identique pour toutes les représentations.
Enfin, les neurones sont mis à jour de manière optimale en calculant l’optimum du critère pour
des valeurs de K(ci; cj) et w(r)
k fixées:
c_
k = arg min
c2X
Xnk
k=1
X
xi2X
K(ck; f_(xi))Dwk (xi; ck) (2.14)
Discussion
L’approche MVADASOM étend ingénieusement les SOM à la problématique des données
multi-vues, lorsque les individus sont représentés par des tableaux relationnels de dissimilarité.
On remarque que le consensus est imposé par la définition du critère objectif, notamment par la
définition de la mesure de dissimilarité globale. Ainsi une carte unique est apprise et il n’est pas
possible de contrôler le compromis entre les clusterings locaux naturels et le désaccord entre les
différentes représentations. Enfin l’autre remarque que l’on peut soulever est sur l’imposition des
paramètres supplémentaires pour garantir la convergence, qui alourdissent le critère. Cependant
ils découlent directement du modèle des SOM. Dans le même esprit, d’autres approches récentes
ont étendu l’approche SOM au cadre des données multi-vues, en optimisant un critère plus
proche dans l’esprit, de l’approche COFC [Grozavu and Bennani, 2010],[Grozavu et al., 2011],
[Mesghouni et al., 2011].
2.3. APPROCHES CENTRALISÉES 61
2.3.5 COMRAF*: champs aléatoires combinatoires de markov
Parmi les approches de clustering de données multi-vues, on trouve également des approches
basées sur des modèles graphiques tels que le modèle COMRAF* [Bekkerman and Jeon, 2007],
qui restreint le modèle plus général COMRAF [Bekkerman et al., 2006].
Modèle
Dans un tel modèle graphique (représenté sous forme de graphe), chaque noeud correspond
soit :
– à l’ensemble des individus X à partitionner ;
– à l’ensemble des propriétés décrivant X dans une vue, une représentation.
Chaque noeud est associé à une variable aléatoire combinatoire (v.a.c.) définie sur l’ensemble
des partitions possibles de l’ensemble correspondant à ce noeud. Chaque arête correspond, quant
à elle, à une mesure d’intéraction entre les deux v.a.cs. qu’elle relie. Dans le cadre général de
COMRAF, on admet qu’il puisse exister des dépendances entre les v.a.cs. associées aux représentations
(identifiées par R(r) 8r 2 [1::nr]). L’objectif est alors de trouver la réalisation (ou
l’instanciation) de chaque variable aléatoire, qui maximise globalement la valeur de probabilité
jointe sur l’ensemble des v.a.cs.. Dans le cadre spécifique qui nous concerne ici, seule la réalisation
de la v.a.c. définie sur l’ensemble des partitions de X nous intéresse, elle sera notée X.
Cela conduit au modèle graphique dans lequel le noeud associé à la v.a.c. X est central et où
chaque réalisation des v.a.cs. R(r) (celles-ci sont seulement observées) apporte une information
permettant de trouver la meilleure réalisation de X. On considère alors toutes les interactions
entre les v.a.cs. R(r) et X ce qui donne un modèle en étoile : COMRAF*(cf. figure 2.2).
Objectif
L’objectif est comme dans la plupart des modèles statistiques, de maximiser la probabilité
jointe des variables du modèle (2.15). Comme les v.a.cs. R(r) sont seulement observées, elles
sont invariantes et leur réalisation correspond à l’ensemble des singletons S(r)
p 8p 2 [1::jRrj]
d’attributs présents dans la vue r. Par exemple, si la vue r représente les individus selon l’ensemble
d’attributs fa; b; cg, alors la v.a.c. R(r) observée a pour réalisation ffag; fbg; fcgg, et on a
S(r)
1 = fag, S(r)
2 = fbg et S(r)
3 = fcg. Ainsi, dans le modèle, seule la réalisation C de la variable
X est alors une variable du problème d’optimisation qui s’exprime :
max
C2P
QCOMRAF = max
C2P
Xnr
r=1
f(r)(C;R(r)) (2.15)
où P est l’ensemble des partitions de X et f(r) est une fonction de potentiel mesurant l’intéraction
entre les clusterings C réalisations de X, et R(r). Par exemple, les auteurs proposent de
prendre comme fonction de potentiel, l’information mutuelle entre les variables aléatoires Ck,
correspondant au k-ième groupe du clustering C, et S(r)
p définies sur C et R(r) respectivement.
Pour résumer, par abus de langage, si on considère les fonctions de potentiels comme des
mesures de similarité entre les clusterings associés aux noeuds, alors l’objectif consiste à trouver le
clustering C de X qui maximise sa similarité globalement et relativement à toutes les vues. Ainsi
l’optimum est caractérisé de manière générale comme le MPE, explication la plus probable de
la variable X, correspondant au meilleur clustering C de X, ainsi :
C_M
PE = arg max
C2P
Xnr
r=1
f(r)(C;R(r))
62 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE
Algorithme
Les auteurs ont proposé un algorithme permettant de mettre à jour le clustering courant de
manière à maximiser le critère objectif. Néanmoins cela ne peut se faire en explorant de manière
exhaustive l’espace de solutions correspondant à l’ensemble des partitions possibles de X
pour des raisons évidentes de complexité. Ainsi, les auteurs ont alors proposé d’effectuer une
recherche locale permettant à partir d’un clustering de trouver le MPE de C. Ils restreignent
l’espace de recherche à un voisinage N(C) correspondant à l’ensemble des clusterings obtenables
en déplaçant un individu d’un groupe de C vers un autre. La règle permettant d’obtenir
un maximum local à partir d’un clustering C est la suivante :
C_ = arg max
C02N(C)
Xnr
r=1
f(r)(C0;R(r)) (2.16)
Le voisinage étant relativement « petit », une recherche exhaustive du meilleur voisin d’un
clustering peut alors être effectuée. L’algorithme 13 est alors complètement dépendant de l’initialisation
du premier clustering et la meta-heuristique de recherche est une simple recherche
en escalade dont le but est de systématiquement trouver, pour un voisinage fixé de la solution
courante, une solution qui maximise le critère objectif posé. La version de COMRAF* relatée ici
considère un nombre de groupes fixé. En effet, ne pas imposer de contraintes sur le nombre de
groupes induit dans le cas général, l’obtention d’une solution dégénérée où l’on obtient comme
partition optimale l’ensemble des singletons de X. Néanmoins les auteurs proposent d’adapter
l’algorithme afin de produire un clustering hiérarchique selon une approche ascendante ou
descendante.
Algorithme 13 COMRAF*
ENTRÉES : X, nk, R, _,
SORTIES : C = fC1; :::;Cnkg
1 : Initialisation aléatoire de C un clustering de X en nk groupes
2 : Mise à jour des groupes C en utilisant (2.16)
3 : Si C change alors aller en 2
Discussion
COMRAF* est un modèle reposant sur une représentation graphique, ce qui en fait une approche
assez intuitive. Il permet de manipuler un nombre quelconque de représentations pour
les individus. Il peut être étendu en une recherche de partition s’accordant au mieux avec les
diverses vues des données, sans spécifier au préalable un nombre de groupes souhaité. En revanche,
la recherche de la meilleure partition repose sur une procédure de parcours de l’espace
de recherche très locale (le voisinage est très restreint) et la meta-heuristique de recherche associée
ne laisse pas assez de place au mauvais choix de l’initialisation, qui est par ailleur délicate
sans l’utilisation d’informations externes. En effet si l’on devait étendre ce modèle, dans un premier
temps, on pourrait envisager d’encapsuler la recherche de solution par une approche de
type recuit simulé plus robuste dans le cas général. De plus, le modèle, même s’il permet d’utiliser
tout type de fonction de potentiel bien choisie, nécessite de pouvoir définir des densités de
probabilités adaptées entre ces vues, or ceci n’est pas toujours possible. Il peut arriver que certaines
représentations n’aient que des variables (ou propriétés) indépendantes pour toute paire
d’individus, auquel cas les lois de probabilités jointes entre chacune de ces variables et les individus
n’auraient pas grand sens. Les auteurs proposent de résoudre ces cas par l’utilisation du
2.3. APPROCHES CENTRALISÉES 63
modèle plus général COMRAF en cherchant en plus du clustering des individus de X, un clustering
de ces représentations afin de former des groupes de propriétés adaptés. L’astuce consiste à
décomposer le modèle COMRAF en une séquence de modèles COMRAF* supposée équivalente
(Fig. 2.2).
X
R
R
R(1)
(3)
(2)
X
R
R
R
=
(1)
(3)
(2)
X
R
R(1)
+ (2)
X
R
R
R(1)
(2)
(3)
FIGURE 2.2 — Un modèle COMRAF où les individus de X sont décrits par 3 représentations. La première
figure représente un modèle en étoile COMRAF*. Dans la suite, les 3 autres figures représente un
modèle COMRAF dans lequel une dépendance est ajoutée entre la v.a.c.R(1) et la v.a.c.R(2). On cherche
la réalisation de X, et de R(2) v.a.cs. correspondantes à un clustering de X, et un clustering de R(2) tels
que l’information mutuelle de ceux-ci entre eux et avec chaque autre représentations dont elles sont dépendantes
soit maximal. Le premier modèle général COMRAF (deuxième figure) se décompose en une
séquence de deux modèles COMRAF*.
2.3.6 COEM : estimation d’un modèle de mélange pour données multi-vues
Toujours parmi les approches statistiques, cette fois génératives, [Bickel and Scheffer, 2005]
ont proposé d’étendre le modèle de mélange au cadre de données multi-vues. Ils proposent une
variante collaborative, notée COEM, de l’algorithme EM pour l’estimation des paramètres d’un
modèle de mélange de lois expliquant la génération de l’ensemble d’individus multi-représentés.
Modèle
À l’instar d’EM, le modèle considéré est toujours le modèle de mélange, mais cette fois nous
supposons l’existence de nr modèles de mélanges f(r) indépendants et de nk composantes chacune
:
f(r)(Xi;_(r)) =
Xnk
k=1
_(r)
k f(r)
k (Xi; _(r)
k ) (2.17)
L’objectif est alors d’estimer les paramètres _ = f_(r)gr2[1::nr] expliquant au mieux la génération
de l’ensemble d’individus X. Les auteurs proposent d’estimer ces paramètres via l’application de
l’algorithme EM indépendamment dans chaque représentation en contrôlant la recherche d’une
solution unique de clustering en s’appuyant sur la recherche de consensus entre les différents
modèles locaux.
Objectif
La fonction objectif à maximiser, qui combine linéairement les espérances des log-vraisemblances
locales de toutes les vues, est pénalisée par un terme de désaccord _(_) entre les différentes
64 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE
représentations :
QCOEM(_;_) =
Xnr
r=1
Q(r)
EM(_(r);_(r);X; nk) __(_)
où selon le paradigme des approches multi-vues centralisées (2.1) :
objectif local(r) = Q(r)
EM(_(r);_(r);X; nk)
=
X
xi2X
Xnk
k=1
z(r)
ik log(_(r)
k f(r)
k (x(r)
i ; _(r)
k ))
désaccord(_) = _(_)
La fonction _ mesure le désaccord entre les clusterings en construction dans toutes les vues.
Ces clusterings _ sont décrits par les paramètres locaux _(r) = (_(r); _(r)). Le désaccord est alors
formulé par :
_(_) =
1
nr 1
X
r6=r0
X
xi2X
Xnk
k=1
f(r)(Zi = kjXi = xi;_(r)) log
f(r)(Zi = kjXi = xi;_(r))
f(r0)(Zi = kjXi = xi;_(r0))
Le critère peut être simplifié en réinjectant le terme de désaccord dans le premier terme
pour faire apparaître une moyenne pondérée sur les différentes représentations de critères de
vraisemblance locaux. L’objectif peut alors être formulé comme la maximisation de ce critère :
max
_
QCOEM(_;_) = max
_
Xnr
r=1
n(r)
Xk
k=1
X
xi2X
z(r)
ik_ log(_(r)
k f(r)
k (x(r)
i ; _(r)
k ) (2.18)
où z(r)
ik_ peut être vue comme une nouvelle estimation des valeurs de probabilités a posteriori pour
la vue r, et est définie comme une moyenne des valeurs de probabilités a posteriori locales :
z(r)
ik_ = f(r)(Zi = kjXi = xi;_(r); _)
= (1 _)z(r)
ik +
_
nr 1
Xnr
r=1
r6=r
z(r)
ik (2.19)
Le critère simple vue dans r, Q(r)
EM, utilise les individus de l’échantillon X des données, les variables
cachées Zi et les paramètres des lois _(r) à estimer. Dans l’expression du critère QCOEM,
_ ajuste l’importance du désaccord _(_) dans le processus d’optimisation. Ce désaccord est
proche d’une divergence de Kullback-Leibler (1.27) entre les distributions de probabilités a posteriori
(courantes et précédentes) sur toutes les paires de vues, ce qui modélise d’une certaine
manière un écart entre ces distributions que les auteurs proposent de réduire.
Algorithme
L’algorithme 14 alterne à la manière de EM une étape E de calcul des probabilités a posteriori
puis une étape M d’estimation des meilleurs paramètres connaissant ces probabilités. La
recherche des meilleurs estimateurs des paramètres _ est réalisée de façon similaire au cadre
2.3. APPROCHES CENTRALISÉES 65
EM classique. L’idée est de parcourir les différentes vues et de chercher localement les paramètres
optimaux _(r)_
= f_(r)
k gk2[1::nk] relativement aux valeurs de probabilités a posteriori globales
z(r)
ik_ :
__ = arg max
_
X
xi2X
Xnk
k=1
z(r)
ik_ log(_(r)
k f(r)
k (x(r)
i ; _(r)
k )) (2.20)
Les valeurs de probabilités a posteriori sont ré-estimées, non de manière optimale, mais
reposent sur les estimateurs locaux obtenus par la règle classique de EM :
z(r)
ik =
_(r)
k f(r)
k (x(r)
i ; _(r)
k )
Xnk
l=1
_(r)
l f(r)
k (x(r)
i ; _(r)
l )
(2.21)
Enfin, les valeurs de probabilités a priori sont également ré-estimées de manière indépendante
de la nature des composantes du mélange :
_(r)
k =
1
nrn
Xnr
r=1
X
xi2X
z(r)
ik (2.22)
En règle générale le résultat produit par la répétition des deux étapes précédentes est tel
qu’un désaccord nul ne puisse être trouvé. Ainsi, pour certains individus, on ne peut décider
de leur appartenance à un groupe particulier. Ils peuvent appartenir à des groupes différents
dans des vues différentes. Les auteurs proposent alors à la fin de l’algorithme d’appliquer une
nouvelle règle MAP (maximum a posteriori) en observant les différents résultats locaux :
xi 2 Ck , k = arg max
k02[1::nk]
zik0 =
Ynr
r=1
_(r)
k0 f(r)
k0 (x(r)
i ; _(r0)
k )
Xnk
l=1
Ynr
r=1
_(r)
l f(r)
k (x(r)
i ; _(r)
l )
(2.23)
Algorithme 14 COEM
ENTRÉES : X, nk, ff(r)gr2[1::nr]
SORTIES : C = fC1; :::;Cnkg
1 : Initialisation aléatoire des _(r) 8r 2 [1::nr]
2 : Étape E : Mise à jour des z(r)
ik en utilisant (2.21)
3 : Mise à jour des z(r)
ik_ en utilisant (2.19)
4 : Étape M : Mise à jour des _(r)
k en utilisant (2.20)
5 : Mise à jour des _(r)
k en utilisant (2.22)
6 : Si QCOEM change alors aller en 2
7 : Ck = fxi 2 Xjzik = max
k02[1::nk]
zik0g; 8k 2 [1::nk]
Discussion
66 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE
Les auteurs donnent une formulation de QCOEM par une somme de log-vraisemblances sur
chaque vue où les probabilités a posteriori sont obtenues par des moyennes pondérées des probabilités
a posteriori locales. Malheureusement, en utilisant la nouvelle expression (cette fois
intuitive) pour le calcul des probabilités a posteriori le critère ne peut pas être maximisé dans
son ensemble sauf en annulant la contribution du désaccord i.e. _ ! 0 et ainsi en ne tenant plus
compte de la collaboration à travers les itérations. Notons qu’une affectation finale au groupe
est obtenue à partir des paramètres du modèle collaboratif appris.
2.4 Contributions
2.4.1 Motivation
L’approche proposée COFKM (Collaborative Fuzzy K-means) comme réponse à la problématique
du clustering multi-vues offre une solution aux problèmes pratiques et théoriques rencontrés
dans la plupart des approches de l’état de l’art. L’approche est de type discriminative et se
fonde sur les développements effectués sur COEM (cf. section 2.3.6) dans l’expression du critère
objectif, puis sur COFC (cf. section 2.3.2) dans la recherche d’une solution convergente sans artifice
(tels que l’annulation de la recherche de consensus dans COEM). Pour palier au problème
de la convergence COFKM se positionne dans le cadre flou de FKM (cf. section 1.4.1) ; un nouveau
terme de désaccord (inspiré de COEM) est proposé pour rendre le modèle plus simple à
paramétrer et le processus d’apprentissage plus intuitif. Enfin, le paramètre _ utilisé par Bickel &
Sheffer pour assurer la convergence est conservé dans COFKM car il permet de lier l’expression
du critère aux différents paradigmes du clustering multi-vues : fusion a priori, a posteriori et
dans le processus. Dans un second temps, l’objectif fixé dans le développement de l’approche
COFKM sera étendu pour la prise en compte de données relationnelles i.e. lorsque les données
sont représentées par des matrices de proximité entre individus : similarité ou dissimilarité. L’extension
COKFKM est telle qu’elle offre les mêmes garanties de convergence que le modèle de
base COFKM. Enfin ces deux nouvelles approches sont testées sur des données standard afin de
les valider expérimentalement.
2.4.2 COFKM : clustering flou multi-vues
L’approche proposée est une extension des K-moyennes floues (cf. section 1.4.1). L’objectif
est de produire un clustering global en intégrant pendant la phase de construction des groupes,
les différentes représentations des individus.
Objectif
Pour rappel, le critère objectif de FKM à minimiser correspond à une inertie pondérée :
QFKM(c; u) =
Xnk
k=1
X
xi2X
u_
ikjjxi ckjj22
avec
Xnk
k=1
uik = 1 ^ uik _ 0 8xi 2 X.
Les variables du problème sont les centres de groupes (c) et les degrés d’appartenance des
individus xi aux groupes (u). Partant d’une solution aléatoire des centres, l’expression du lagrangien
du problème et la dérivation des conditions du premier ordre associées au problème
permettent d’établir les mises à jour optimales des variables connaissant une solution courante.
2.4. CONTRIBUTIONS 67
Ces mises à jours sont données par :
c_
k =
X
xi2X
u_
ikxi
X
xi2X
u_
ik
; u_
ik =
jjxi ckjj2=(1_)
2
Xnk
k0=1
jjxi ck0 jj2=(1_)
2
Soient c et u l’ensemble des centres et degrés tels que :
– c = fc(r)gr2[1::nr] avec c(r) = fc(r)
1 ; : : : ; c(r)
nk g ;
– u = fu(r)gr2[1::nr] avec u(r) = fu(r)
ik g xi2X
k2[1::nk]
.
Suivant le formalisme général des approches de clustering multi-vues centralisées, on cherche
à optimiser un critère global tel que la solution optimale soit une solution de compromis entre
de bonnes solutions locales dans chaque vue :
QCOFKM(c; u) =
Xnr
r=1
objectif local(r) + désaccord(_) (2.24)
Soit Q(r)
FKM le critère objectif de FKM dans la vue r, le critère objectif multi-vues proposé est
défini par :
objectif local(r) = Q(r)
FKM
désaccord(_) = _(_)
Le désaccord _(_) permet de mesurer l’écart entre les clusterings locaux déterminés complètement
par les degrés d’appartenances locaux, et les centres de groupes locaux. L’expression
du désaccord peut alors être formulé par _(c; u) défini par :
_(c; u) =
1
nr 1
Xnr
r=1
Xnr
r=1
r6=r
X
xi2X
Xnk
k=1
_
(u(r)
ik
_
u(r)
ik
_
)jjx(r)
i c(r)
k jj22
_
Lorsque les clusterings locaux sont parfaitement similaires i.e. :
8xi 2 X 8k 2 [1::nk] 8(r; r) 2 [1::nr]2; u(r)
ik = u(r)
ik
le terme _(c; u) est nul. Dans cette expression, on somme les différences entre les clusterings
obtenues dans r et r, 8(r; r) 2 [1::nr]2. L’expression précédente peut-être écrite comme une
somme sur les paires (r; r) telles que r > r :
_(c; u) =
1
nr 1
Xnr
r=1
Xr1
r=1
X
xi2X
Xnk
k=1
_
(u(r0)
ik
_
u(r)
ik
_
)(jjx(r)
i c(r)
k jj22
jjx(r)
i c(r)
k jj22
)
_
Le terme de désaccord pénalise le critère. Il peut être considéré comme une divergence entre les
organisations puisque plus (u(r)
ik
_
u(r)
ik
_
) est petit, plus faible est le désaccord.
Afin de conserver des inerties (Q(r)
FKM) comparables entre les différentes vues, il est nécessaire
de procéder à une normalisation des données :
– chaque descripteur de la vue r est réduit de telle sorte à obtenir une variance unitaire ;
– soit n(r)
p le nombre de descripteurs de la vue r, un poids égal à n(r)
p
1=2
est associé à
chaque descripteur appartenant à la vue r, de manière à annuler l’impact du déséquilibre
du nombre de dimensions entre vues.
68 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE
La normalisation appliquée implique que jjx(r)
i c(r)
k jj22
et jjx(r)
i c(r)
k jj22
sont comparables.
jjx(r)
i c(r)
k jj22
étant inversement proportionnel à u(r)
ik , on peut considérer le terme (jjx(r)
i c(r)
k jj22
jjx(r)
i c(r)
k jj22
) comparable à (u(r)
ik u(r)
ik ). Ainsi, le désaccord peut-être vu comme une distance
entre les clusterings locaux représentés par fu(r)g et fu(r)g. L’avantage est que notre terme de
désaccord a le même ordre de grandeur que l’inertie locale, ainsi la somme de ces expressions
peut être considérée comme un critère global cohérent QCOFKM.
QCOFKM(c; u) =
Xnr
r=1
Q(r)
FKM
!
+ __(c; u) (2.25)
=
0
@
Xnr
r=1
X
xi2X
Xnk
k=1
(u(r)
ik
_
jjx(r)
i c(r)
k jj22
)
1
A + __(c; u)
=
Xnr
r=1
X
xi2X
Xnk
k=1
(u(r)
ik_jjx(r)
i c(r)
k jj22
)
où
u(r)
ik_ = (1 _)u(r)
ik
_
+
_
nr 1
(
Xnr
r=1
r6=r
u(r)
ik
_
) (2.26)
L’objectif est alors la minimisation de ce critère d’inertie pénalisé QCOFKM sous les contraintes
que chaque u(r) forme une partition floue :
min
c;u
QCOFKM(c; u) = min
c;u
Xnr
r=1
Xnk
k=1
X
xi2X
u(r)
ik_jjx(r)
i c(r)
k jj22
s:t:
Pnk
k=1 u(r)
ik = 1 8xi 2 X; 8r 2 [1::nr] (cs1)
u(r)
ik _ 0 8xi 2 X; 8k 2 [1::nk]; 8r 2 [1::nr] (cs2)
(2.27)
Algorithme
Comme dans la majorité des approches discriminatives basées sur un critère objectif, l’algorithme
permettant d’en trouver une solution optimale découle directement de la résolution du
problème d’optimisation. Ainsi, dans le cadre de l’optimisation sous contraintes, on considère le
lagrangien L associé au problème :
L(c; u; _) = QCOFKM +
Xnr
r=1
X
xi2X
_(r)
i (
Xnk
k=1
u(r)
ik 1)
où _ = f_(r)
i g xi2X
r2[1::nr]
sont les multiplicateurs de lagrange associés aux contraintes. Si (c_; u_) est
un optimum (local), alors il existe un unique __ tel que c_, u_ et __ satisfont les conditions du
premier ordre suivantes : 8>>>>>>><
>>>>>>>:
@L(c_; u_; __)
@c(r)
k
= 0 (cond 1)
@L(c_; u_; __)
@u(r)
ik
= 0 (cond 2)
@L(c_; u_; __)
@_(r)
i
_ = 0 (cond 3)
2.4. CONTRIBUTIONS 69
Les différentes dérivées partielles issues de (cond 1), (cond 2) et (cond 3) mènent respectivement
aux expressions:
@L(c_; u_; __)
@u(r)
ik
= (1 _)_u(r)
ik
_(_1)
jjx(r)
i c(r)
k
_
jj22
+
_
nr 1
_u(r)
ik
_(_1)
0
B@
Xnr
r=1
r6=r
jjx(r)
i c(r)
k
_
jj22
1
CA
_(r)
i
_
@L(c_; u_; __)
@c(r)
k
= 2
X
xi2X
_
u(r)
ik_
_
(x(r)
i c(r)
k
_
)
_
@L(c_; u_; __)
@_(r)
i
_ =
Xnk
k=1
u(r)
ik
_
1
Comme pour FKM, l’algorithme (cf. Algorithme 15) propose, partant d’une solution initiale
(c; u), de construire progressivement une solution meilleure au sens de l’objectif QCOFKM, en
alternant consécutivement deux étapes d’optimisation :
– le calcul des centres optimaux c(r)
k
_
à partir des degrés u(r)
ik ;
– le calcul des degrés optimaux u(r)
ik
_
à partir des centres c(r)
k .
Les suites ainsi construites convergent vers une solution localement optimale de QCOFKM. L’équation
@L(c_; u_; __)
@_(r)
i
_ = 0 redonne la contrainte :
@L(c_; u_; __)
@_(r)
i
_ = 0 ,
Xnk
k=1
u(r)
ik
_
= 1 (2.28)
Les équations @L(c_; u_; __)
@c(r)
k
= 0 et @L(c_; u_; __)
@u(r)
ik
= 0 impliquent respectivement :
c(r)
k
_
=
X
xi2X
(u(r)
ik_
_
x(r)
i )
X
xi2X
u(r)
ik_
_ (2.29)
u(r)
ik_
_
=
_
_
_(r)_
_1=(1_)_
(1 _)jjx(r)
i c(r)
k
_
jj22
(2.30)
+
_
nr 1
Xnr
r=1
r6=r
jjx(r)
i c(r)
k
_
jj22
_1=(1_)
L’équation (2.29) à condition de connaître la valeur courante de u, est sous forme close et
correspond à la formule de mise à jour des centres. Cette expression est la même que celle de
FKM où les degrés d’appartenance servant à pondérer le calcul du barycentre sont les degrés
collaboratifs u(r)
ik_ et non les degrés locaux. En utilisant la contrainte présente dans (2.28), on
70 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE
peut déterminer la valeur de _(r)_ :
Xnk
k=1
u(r)
ik
_
= 1
,
Xnk
k=1
0
BB@
_
_(r)
i
!1=(1_)
0
B@
(1 _)jjx(r)
i c(r)
k
_
jj22
+
_
nr 1
Xnr
r=1
r6=r
jjx(r)
i c(r)
k
_
jj22
1
CA
1=(1_)
1
CCA
= 1
d’où
_(r)
i
_1=(1_)
= _1=(1_)
Xnk
k=1
_
(1 _)jjx(r)
i c(r)
k
_
jj22
+
_
nr 1
Xnr
r=1
r6=r
jjx(r)
i c(r)
k
_
jj22
_1=(1_)
En réintroduisant cette expression dans (2.30), on est en mesure de déterminer seulement à
partir de la valeur des centres, les nouveaux degrés d’appartenance :
u(r)
ik
_
=
_
(1 _)jjx(r)
i c(r)
k
_
jj22
+
_
nr 1
Xnr
r=1
r6=r
jjx(r)
i c(r)
k
_
jj22
_1=(1_)
Xnk
k0=1
_
(1 _)jjx(r)
i c(r)
k0
_
jj22
+
_
nr 1
Xnr
r=1
r6=r
jjx(r)
i c(r)
k0
_
jj22
_1=(1_)
(2.31)
Finalement, partant d’une initialisation aléatoire des centres c(r)
k , on calcule, à chaque étape :
– les valeurs optimales de u(r)
ik
_
pour des valeurs fixées de c(r)
k ;
– les valeurs optimales de c(r)
k
_
pour des valeurs fixées de u(r)
ik .
Ainsi, par cet algorithme, la décroissance du critère QCOFKM est garantie, ce qui assure la convergence
(vers un optimum local).
Construction de la partition finale
La méthode proposée assure l’obtention d’un optimum local du critère QCOFKM. Cependant,
même si l’un des objectifs du critère compromis est d’obtenir pour chaque individu des profils
d’appartenance aux groupes semblables dans toutes les vues, nous ne pouvons garantir que
cette condition soit vérifiée par l’optimalité de la solution. Ainsi les centres de groupes et les
degrés d’appartenance optimaux sont en général différents selon les vues. Le but étant d’obtenir
un résultat de clustering unique, les résultats locaux dans chaque vue sont fusionnés au travers
d’une règle d’affectation globale, permettant d’obtenir une partition stricte des individus. Cette
règle nécessite de calculer, pour chaque individu xi 2 X et chaque groupe Ck 2 C, un degré
d’appartenance global, correspondant à une moyenne géométrique des degrés d’appartenance
locaux :
uik =
Ynr
r=1
u(r)
ik
!1=nr
(2.32)
L’individu xi est alors affecté au groupe Ck maximisant uik :
xi 2 Ck , k = arg max
k02[1::nk]
uik0
2.4. CONTRIBUTIONS 71
Cette règle, ainsi que le critère objectif lui-même, requiert l’association de chaque groupe
simultanément dans toutes les vues. Dans ce contexte, un même groupe Ck 2 C est identifié
par son indice k 2 [1::nk] dans toutes les vues. Ainsi, les prototypes locaux c(r)
k se réfèrent au
même et unique groupe Ck. La consistance de cette identification est suggérée par la façon
dont sont initialisées les variables. L’initialisation consiste à choisir aléatoirement nk individus
comme centres de tous les groupes de même indice. Ainsi, pour tout k 2 [1::nk], les centres ckr
correspondent à toutes les vues du même individu. Cependant, le processus de clustering peut
entraîner une dérive de cette association.
Algorithme 15 COFKM
ENTRÉES : X, nk
SORTIES : C = fC1; :::;Cnkg
1 : Initialisation aléatoire des c(r)
k sous la contrainte :
J 9xi 2 X; (c(r)
k = x(r)
i ) ^ (c(r0)
k = x(r0)
i ) K
2 : Mise à jour des u(r)
ik en utilisant (2.31)
3 : Mise à jour des c(r)
k en utilisant (2.29)
4: Si QCOFKM change alors aller en 2
5: Ck = fxi 2 Xjuik = max
k02[1::nk]
uik0g; 8k 2 [1::nk]
Discussion
L’approche proposée COFKM est une généralisation :
– de FKM appliqué à la concaténation des différentes représentations, ce qui correspond à
un mécanisme de fusion a priori;
– d’un cas simple de fusion a posteriori où FKM est appliqué simultanément et indépendamment
dans toutes les représentations avant d’être concilié par la procédure d’affectation.
Généralisation d’une approche a priori. Considérons le critère QCOFKM pour lequel la valeur
de _ est fixée : _ = nr1
nr
. Le critère peut alors être réécrit :
QCOFKM(c; u) =
Xnr
r=1
Xnk
k=1
X
xi2X
u(r)
ik_jjx(r)
i c(r)
k jj22
=
Xnr
r=1
Xnk
k=1
X
xi2X
_
(1 _)u(r)
ik
__
+
_
nr 1
(
Xnr
r=1
r6=r
u(r)
ik
__
)
_
jjx(r)
i c(r)
k jj22
=
Xnr
r=1
Xnk
k=1
X
xi2X
_
(1
nr 1
nr
)u(r)
ik
__
+
(nr 1)
nr(nr 1)
Xnr
r=1
r6=r
u(r)
ik
__
)
_
jjx(r)
i c(r)
k jj22
=
Xnr
r=1
Xnk
k=1
X
xi2X
_
1
nr
Xnr
r0=1
u(r0)
ik
__
_
jjx(r)
i c(r)
k jj22
72 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE
La valeur de u(r0)
ik
_
peut être déterminée, toujours selon (2.31) et restreint à _ = nr1
nr
:
u(r)
ik
_
=
_
(1 _)jjx(r)
i c(r)
k
_
jj22
+
_
nr 1
Xnr
r=1
r6=r
jjx(r)
i c(r)
k
_
jj22
_1=(1_)
Xnk
k0=1
_
(1 _)jjx(r)
i c(r)
k0
_
jj22
+
_
nr 1
Xnr
r=1
r6=r
jjx(r)
i c(r)
k0
_
jj22
_1=(1_)
=
_
1
nr
jjx(r)
i c(r)
k
_
jj22
+
1
nr
Xnr
r=1
r6=r
jjx(r)
i c(r)
k
_
jj22
_1=(1_)
Xnk
k0=1
_
1
nr
jjx(r)
i c(r)
k0
_
jj22
+
1
nr
Xnr
r=1
r6=r
jjx(r)
i c(r)
k0
_
jj22
_1=(1_)
et en utilisant le fait que la somme des carrés des distances aux centres locales correspond aux
carrés des distances aux centres dans l’espace concaténé :
Xnr
r=1
jjx(r)
i c(r)
k
_
jj2 = jjxi c_
kjj2
où xi correspond à la concaténation des vecteurs x(r)
i . Les degrés optimaux se réécrivent alors :
u(r)
ik
_
=
jjxi c_
kjj22
Xnk
k0=1
jjxi ck0
_jj22
(2.33)
et ainsi u(r)
ik
_
= u(r0)
ik
_
8xi 2 X; 8r 2 [1::nr]; 8k 2 [1::nk]. Les degrés locaux u(r)
ik
_
sont donc
indépendants de r et peuvent être notés uik.
Le critère QCOFKM se réécrit dans ce contexte :
QCOFKM(c; u) =
Xnr
r=1
Xnk
k=1
X
xi2X
u_
ikjjx(r)
i c(r)
k jj22
=
Xnk
k=1
X
xi2X
u_
ikjjxi ckjj22
Finalement, on peut voir COFKM comme une généralisation de FKM appliquée à la concaténation
des représentations vectorielles, où l’on peut forcer l’obtention d’une solution correspondant
à un consensus en choisissant une valeur _ < (nr1)
nr
.
Généralisation d’une approche a posteriori. Soit _ = 0 le critère QCOFKM peut alors être
réécrit comme une somme sur toutes les vues des critères FKM classiques :
QCOFKM_=0(c; u) =
Xnr
r=1
Q(r)
FKM
!
=
Xnr
r=1
X
xi2X
Xnk
k=1
u(r)
ik
_
jjx(r)
i c(r)
k jj22
2.4. CONTRIBUTIONS 73
Les mises à jour optimales des variables du problème sont alors données par :
c(r)
k
_
=
X
xi2X
u(r)
ik
_
x(r)
i
X
xi2X
u(r)
ik
_ ; u(r)
ik
_
=
jjx(r)
i c(r)
k jj2=(1_)
2
Xnk
k0=1
jjx(r)
i ___________c(r)
k0 jj2=(1_)
2
(2.34)
Le critère est la somme des inerties locales, qui sont optimisées de manières indépendantes
par l’algorithme FKM, les mises à jour étant identiques modulo un renommage des variables.
La fusion a posteriori est réalisée par notre règle d’affectation finale (2.32). Le formalisme collaboratif
proposé COFKM est alors une généralisation de la fusion a posteriori, en choisissant
_ = 0.
Comparaison avec l’état de l’art. Les approches auxquelles nous nous comparons tant au niveau
de l’expression du critère qu’au niveau expérimental sont les approches COFC et COEM.
L’inconvénient majeur de COEM (cf. section 2.3.6) réside en la non convergence de l’algorithme
proposé pour trouver les meilleurs estimateurs des paramètres _. Pour assurer cette convergence,
[Bickel and Scheffer, 2005] proposent de faire décroître le paramètre _ jusqu’à 0, ce qui
correspond à l’optimisation du critère local indépendamment dans toutes les vues et tend à revenir
à un mécanisme de fusion a posteriori. COEM peut ainsi être vu comme une approche en
deux temps :
1. Durant la première phase (_ > 0) les paramètres sont estimés dans le but d’accroître le
consensus mais sans garanties de convergence.
2. Lors de la seconde phase (_ = 0) la valeur du critère global converge par convergence
locale dans toutes les vues, mais le terme de pénalité n’est pas considéré.
Le modèle COFKM est défini de telle sorte que quelque soit la valeur de _, la convergence
est assurée puisque le critère global décroît à chacune des étapes de l’algorithme.
En ce qui concerne l’approche COFC, celle-ci offre de bonnes propriétés de convergence,
mais souffre de deux lacunes au regard de FKM qu’elle vise à étendre :
– un manque de généricité dans le sens où il n’est plus possible de moduler la recherche de
solution grâce au paramètre de flou _ de FKM.
– un manque d’interprétabilité des équations de mise à jour des prototypes et des degrés
d’appartenance.
La contribution COFKM intègre le paramètre de flou et généralise complètement l’algorithme
FKM pour le traitement de données multi-représentées par des représentations vectorielles. Les
procédures de mises à jour des variables sont intuitives et s’interprètent bien de sorte à faire
ressortir la recherche d’un compromis entre les différentes vues.
2.4.3 COKFKM : clustering flou multi-vues à noyaux
COFKM généralise le modèle classique des K-moyennes floues mais se voit toujours restreint
à l’utilisation de la métrique euclidienne. En particulier, ce modèle ne s’applique que dans le cas
où les données sont décrites par des vecteurs d’attributs numériques. L’objectif COKFKM, objet
de cette section est d’étendre COFKM pour le rendre applicable dans le cas où les données sont
représentées par plusieurs matrices de proximité. Cette extension est réalisée grâce à l’utilisation
de l’astuce du noyau dans un cadre d’apprentissage non supervisé.
Astuce du noyau
74 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE
L’astuce du noyau a été appliquée de nombreuses fois pour des utilisations variées. L’idée est
de réaliser une projection de l’ensemble d’individus d’un espace d’origine X à un nouvel espace
H afin de faciliter la recherche d’un meilleur clustering de X. L’objectif est double, l’utilisation
d’un noyau permet :
– d’augmenter les chances de capturer les vraies classes des individus, lorsque ceux-ci ne
sont pas linéairement séparables dans l’espace de représentation d’origine. Cela permet
d’améliorer les performances des approches traditionnelles de clustering lorsque l’on peut
les évaluer par rapport à une classification de référence.
– de pouvoir étendre tout type d’approche fondée sur la distance euclidienne, qu’elle permet
de redéfinir par la définition d’une matrice de proximité.
Soit _ la fonction telle que _ : X 7! H. _(xi) est la projection de xi dans H. La distance
euclidienne dans l’espace H s’exprime par :
jj_(xi) _(xj)jj22
= h_(xi); _(xi)i 2h_(xi); _(xj)i + h_(xj); _(xj)i
L’astuce consiste alors à interpréter le produit scalaire h_(xi); _(xj)i comme une mesure de
similarité. Ainsi si on a à disposition une matrice K telle que Kij = h_(xi); _(xj)i ou un moyen
de construire K à partir de X, alors on peut complètement redéfinir la distance euclidienne
dans H et appliquer les algorithmes de clustering dans cet espace tout en conservant les bonnes
propriétés de ceux-ci :
jj_(xi) _(xj)jj22
= Kii 2Kij + Kjj
Il n’est alors pas nécessaire de calculer explicitement _(xi) 8xi 2 X pour calculer cette
distance.
Dans FKM, le critère objectif est modifié de sorte à réaliser le clustering de X dans H. Ainsi
la partition floue solution est un optimum du critère objectif :
QKFKM =
Xnk
k=1
X
xi2X
u_
ikjj_(xi) ckjj22
Les valeurs optimales des variables ck et uik sont données par :
c_
k =
X
xi2X
u_
ik_(xi)
X
xi2X
u_
ik
; u_
ik =
jj_(xi) ckjj2=(1_)
2
Xnk
k=1
jj_(xi) ckjj2=(1_)
2
Il a été montré que même si les centres optimaux ne peuvent pas être calculés (car _ est
en général inconnue), on peut optimiser le critère QKFKM grâce à K sous réserve que K soit
semi-définie positive. On peut alors calculer le carré de la distance euclidienne entre _(xi) et
ck :
jj_(xi) ckjj22
= Kii 2
X
xj2X
u_
jkKij
X
xj2X
u_
jk
+
X
xj2X
X
xl2X
u_
jku_
lkKjl
(
X
xj2X
u_
jk)2
Les centres sont implicitement déplacés dans l’espace de projection lors du calcul des nouvelles
distances (dépendantes des nouveaux estimateurs des degrés d’appartenances). On peut
alors transposer ce résultat à l’approche COFKM. On pose dans la suite :
– c = fc(r)gr2[1::nr] avec c(r) = fc(r)
1 ; : : : ; c(r)
nk g ;
– u = fu(r)gr2[1::nr] avec u(r) = fu(r)
ik g xi2X
k2[1::nk]
.
2.4. CONTRIBUTIONS 75
Objectif
Soit _ = f_(r)gr2[1::nr] telle que _(r) : X(r) 7! H(r), le critère QCOFKM peut alors être réécrit en
QCOKFKM pour obtenir une version à noyaux :
QCOKFKM =
Xnr
r=1
Q(r)
KFKM
!
+ __(c; u) (2.35)
=
Xnr
r=1
X
xi2X
Xnk
k=1
u(r)
ik
_
jj_(r)(x(r)
i ) c(r)
k jj22
+ __(c; u)
avec
_(c; u) =
1
nr 1
Xnr
r=1
r6=r
X
xi2X
Xnk
k=1
(u(r)
ik
_
u(r)
ik
_
)jj_(r)(x(r)
i ) c(r)
k jj22
A l’instar de COFKM, le clustering multi-vues par COKFKM peut également être exprimé par
le problème d’optimisation :
min
c;u
QCOKFKM(c; u) = min
c;u
Xnr
r=1
Xnk
k=1
X
xi2X
u(r)
ik_jj_(r)(x(r)
i ) c(r)
k jj22
s:t:
Pnk
k=1 u(r)
ik = 1 8xi 2 X; 8r 2 [1::nr] (cs1)
u(r)
ik _ 0 8xi 2 X; 8k 2 [1::nk]; 8r 2 [1::nr] (cs2)
(2.36)
avec
u(r)
ik_ = (1 _)u(r)
ik
_
+
_
nr 1
Xnr
r=1
r6=r
u(r)
ik
_
(2.37)
Algorithme
L’algorithme permettant de résoudre ce problème d’optimisation est dérivé directement du
critère à la manière de COFKM. Il s’agit d’un processus qui, partant d’une initialisation particulière
des prototypes des groupes, alterne une mise à jour optimale des degrés d’appartenance
des individus aux groupes, puis une mise à jour des prototypes des groupes (cf. algorithme 16).
Les degrés d’appartenance sont réévalués de manière optimale de la même manière que dans
COFKM mais les distances euclidiennes utilisées sont associées aux espaces H(r) :
u(r)
ik
_
=
_
(1 _)jj_(r)(x(r)
i ) c(r)
k jj22
+
_
nr 1
Xnr
r=1
r6=r
jj_(r)(x(r)
i ) c(r)
k jj22
_1=(1_)
Xnk
k=1
_
(1 _)jj_(r)(x(r)
i ) c(r)
k jj22
+
_
nr 1
Xnr
r=1
r6=r
jj_(r)(x(r)
i ) c(r)
k jj22
_1=(1_)
(2.38)
L’équation de mise à jour des prototypes des groupes est également connue et consiste à
calculer les centres de masse des différents groupes :
c(r)
k
_
=
X
xi2X
u(r)
ik_
_
_(r)(x(r)
i )
X
xi2X
u(r)
ik_
_
76 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE
Néanmoins, comme dans toute approche à noyaux, la projection _(r)(x(r)
i ) n’est pas calculable
ou il n’est pas souhaitable de la calculer, la mise à jour ne peut avoir lieu explicitement.
Ainsi, après avoir déterminé les valeurs de u(r)
ik_ par (2.37), les centre optimaux peuvent être
déterminés implicitement par la réévaluation des distances d(r)(xi; ck
_) = jj_(r)(x(r)
i ) c(r)
k
_
jj2
dans H(r) :
d2 (r)(xi; ck
_) = jj_(r)(x(r)
i ) c(r)
k
_
jj22
(2.39)
= K(r)
ii 2
X
xj2X
u(r)
jk_
_
K(r)
ij
X
xj2X
u(r)
jk_
_ +
X
xj2X
X
xl2X
u(r)
jk_
_
u(r)
ik_
_
K(r)
jl
(
X
xj2X
u(r)
jk_
_
)2
Une fois le processus itératif terminé, des degrés d’appartenance aux groupes globaux uik
sont calculés, à la manière de COFKM, selon l’équation (2.32)
Algorithme 16 COKFKM
ENTRÉES : X, nk, fK(r)gr2[1::nr]
SORTIES : C = fC1; :::;Cnkg
1 : Initialisation aléatoire des c(r)
k sous la contrainte :
J 9xi 2 X; (c(r)
k = x(r)
i ) ^ (c(r)
k = x(r)
i ) K
2 : Mise à jour des u(r)
ik
_
en utilisant (2.38)
3 : Mise à jour des u(r)
ik_
_
en utilisant (2.37)
4 : Mise à jour des d(r)(xi; ck
_) par (2.39)
5 : Si QCOFKM change alors aller en 2
6 : Ck = fxi 2 Xjuik = max
k02[1::nk]
uik0g; 8k 2 [1::nk]
Discussion
La version à noyaux COKFKM généralise complètement COFKM. En effet, il suffit de choisir
comme matrices noyaux pour chaque vue les matrices des produits scalaires individus dans
l’espace de description d’origine X(r). Soit K(r)
ij = h_(x(r)
i ); _(x(r)
j )i = hx(r)
i ; x(r)
j i, alors on a bien
jj_(r)(x(r)
i ) c(r)
k jj22
= jjx(r)
i c(r)
k jj22
.
Le critère optimisé correspond exactement à celui de COFKM appliqué cette fois dans H =
fH(r)gr2[1::nr]. L’intérêt de COKFKM réside essentiellement dans la possibilité d’utiliser différentes
matrices de proximité, en particulier des matrices de similarité, plus adaptées aux données.
Cependant l’utilisation de cette astuce peut avoir un coût, notamment du point de vue de
la complexité qui est présenté par la suite.
Complexité algorithmique
L’objectif de ce paragraphe est ici d’étudier les pertes associées à l’utilisation de COKFKM (plus
général) par rapport à COFKM, au sens de la complexité algorithmique. L’algorithme COFKM (cf.
algorithme 15) se décompose en trois étapes :
2.5. ÉVALUATION 77
1. Le calcul des degrés d’appartenances locaux u(r)
ik par (2.31).
Pour chaque xi, k et r, une somme pondérée sur les vues r des distances aux prototypes
est calculée. La distance dans une vue r se calculant en O(n(r)
p ), le calcul de u(r)
ik s’effectue
alors en O(nr:n(r)
p ). L’étape de mise à jour complète des degrés a pour complexité au pire
des cas O(nk:n2r
:n:
Xnr
r=1
n(r)
p ).
2. Le calcul des degrés collaboratifs u(r)
ik_ par (2.26).
Il suffit de calculer pour chaque xi,k et r une somme pondérée sur les vues des degrés
locaux déjà évalués. La mise à jour de tous les u(r)
ik_ se fait ainsi en O(nk:nr
2:n).
3. Le calcul des centres c(r)
k par (2.29).
Il suffit de calculer pour chaque k et r une moyenne pondérée sur les individus. La mise à
jour de tous les c(r)
k a un coût de O(nk:nr:n).
La complexité à l’issue des trois étapes devient O(nk:nr:n(1+nr +(
Pnr
r=1 n(r)
p ):nr)). La complexité
de COFKM est alors O(nk:nr:n(((
Pnr
r=1 n(r)
p ) + 1):nr)).
Dans le cas de l’algorithme COKFKM (cf. algorithme 16), des trois étapes de calcul, seule la
dernière change, puisqu’il n’est pas possible de calculer explicitement les centres dans l’espace
de projection. Ceux-ci sont déplacés implicitement pendant le calcul des distances. De ce fait ces
distances sont désormais stockées en mémoire, ce qui n’était pas nécessaire dans COFKM, ainsi :
1. Le calcul des degrés d’appartenances est moins coûteux : O(nk:nr
2:n).
2. Le coût du calcul des degrés collaboratifs est inchangé : O(nk:nr
2:n).
3. La mise à jour des distances aux centres par (2.39) se réalise en O(nk:nr:n2).
La complexité au pire des cas, à l’issue des trois étapes, est de l’ordre de O(nk:nr:n(n+2:nr)).
Si on émet les hypothèses suivantes (largement vérifiées dans les cas concrets d’applications)
– n >> nr i.e. on a à disposition plus d’individus que de vues ;
–
Pnr
r=1 n(r)
p >> nr i.e. la dimensionnalité de la concaténation des représentations vectorielles
de chaque vue est largement plus élevé que le nombre de vues ;
alors les complexités des deux approches à comparer deviennent :
COFKM : O(nk:nr:n:(
Xnr
r=1
n(r)
p )) ;
COKFKM : O(nk:nr:n:n).
En d’autres termes, si le nombre d’individus n est beaucoup plus grand que la somme des
dimensionnalités n(r)
p , alors l’approche COFKM est moins complexe et plus rapide d’exécution.
En revanche, dans le cas de la malédiction de la dimensionnalité, où le nombre d’attributs est
beaucoup plus grand que le nombre d’individus, l’approche à noyaux devient moins complexe,
et se justifie alors comme une variante efficace.
2.5 Évaluation
Les approches COFKM et COKFKM ont été validées expérimentalement en suivant différentes
procédures d’évaluation internes et externes. Les jeux de données qui ont servi de base
de validation sont tirés de travaux de recherche comme celui de [Strehl and Ghosh, 2003] 1 ou
de bases de données disponibles en ligne telles l’UCI Machine Learning Repository 2 ou WebKB 3.
1. http://strehl.com/
2. http://archive.ics.uci.edu/ml/
3. http://www.mpi-inf.mpg.de/ bickel/mvdata/
78 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE
2.5.1 Données
Le premier jeu de données multiple features ou mfeat correspond à un ensemble de 2000
chiffres manuscrits (images) numérisées par six techniques d’encodage d’images :
– les coefficients de Fourier : X1 2 [0; 1]2000_76 ;
– les corrélations de profils : X2 2 N2000_216 ;
– les coefficients de Karhunen-Loève : X3 2 R2000_64 ;
– les descripteurs morphologiques : X4 2 R2000_6 ;
– les nombres de pixels dans des fenêtres 2 _ 3 : X5 2 N2000_240 ;
– les moments de Zernike : X6 2 R2000_47.
Ainsi, chaque individu (chiffre) est représenté par six représentations vectorielles et chacune de
ces représentations est insuffisante pour retrouver les différents groupes d’images représentant
un même chiffre. Dix classes sont à retrouver (les chiffres de 0 à 9), avec 200 individus par classe.
Le jeu 2D2K contient 1000 individus générés par un mélange de deux gaussiennes bidimensionnelles
sphériques (pour une classe donnée, la valeur de variance est égale dans les deux
dimensions). À partir de ces données bidimensionnelles, trois représentations sont construites
artificiellement :
– la première vue correspond à la première dimension : X1 2 R1000_1 ;
– la seconde vue correspond à la seconde dimension : X2 2 R1000_1 ;
– la troisième vue correspond de nouveau à la première dimension :
X3 2 R1000_1.
Deux classes sont à retrouver et s’identifient avec les deux composantes du mélange.
WebKB est un jeu de donnée réel correspondant à une collection de 4501 pages web académiques
tirées d’universités des États-Unis (Cornell, Texas, Washington et Wisconsin) et regroupées
manuellement en six classes de pages concernant respectivement les étudiants, la faculté,
le personnel, les départements, les cours et les projets de recherche. Deux représentations sont
disponibles :
– la première vue concerne le texte de chaque page web :
X1 2 N4501_25000 ;
– la seconde vue correspond au texte de tous les liens entrants :
X2 2 N4501_900.
La première représentation est très volumineuse en terme de dimensionnalité et les deux
prennent la forme de matrices très creuses. Ceci constitue un défi pour les méthodes de classifications
actuelles, et se retrouve fréquemment dans les applications de type fouille de textes ou
fouille du web. Les classes sont cette fois non homogènes en taille et les vues sont très déséquilibrées
et inégales quant à la quantité d’informations qu’elles apportent.
2.5.2 Protocole expérimental
Les deux premiers jeux de données ont servi à valider principalement l’approche COFKM dédiée
au cas où les individus sont définis par des représentations vectorielles. Le troisième jeu de
donnée valide l’apport de l’extension à noyaux COKFKM.
Tous les jeux de données se sont vu appliqués la normalisation imposée par COFKM selon un
principe d’équité entre toutes les représentations, et entre tous les attributs de chaque représentation.
Dans un premier temps, différentes expériences ont été conduites dans le but de justifier
l’intérêt des approches collaboratives centralisées comparées aux approches a priori (par concaténation)
et a posteriori, d’une part en détaillant les gains de performances obtenus par rapport
à ces techniques, et d’autre part en caractérisant la solution consensus en terme d’évaluation
2.5. ÉVALUATION 79
interne. Dans un second temps, la performance de COFKM est étudiée comparativement aux
approches de l’état de l’art telles COFC et COEM.
Les résultats obtenus correspondent à une moyenne de 20 exécutions pour multiple features,
100 exécutions pour 2D2K et 10 exécutions pour WebKB. Les différentes méthodes ont été comparées
chaque fois avec la même initialisation. Les paramètres de COFKM sont fixés à _ = 1:25
(valeur couramment employée) lorsque la performance de l’algorithme n’est pas évaluée selon
ce paramètre, et _ = nr1
2_nr
, ce qui correspond à une valeur heuristique de collaboration entre les
versions a priori (_ = nr1
nr
) et a posteriori (_ = 0) de COFKM.
En ce qui concerne COEM(et EM), l’estimation des paramètres d’un modèle de mélange
gaussien général est inefficace, différents modèles parcimonieux ont alors été observés :
– le cas des matrices de variances/covariances de la forme _k:I (vs1) ;
– le cas des matrices de la forme _:I (le même _ pour toutes les composantes du mélange)
(vs2) ;
– le cas des matrices diagonales (vs3).
Le paramètre _ de COEM quant à lui décroît progressivement pour garantir la convergence.
Pour l’application de l’algorithme COFC, il n’est pas spécifié que l’application de l’algorithme
puisse se faire de manière simultanée sur tous les sites (les différentes vues). Plusieurs cas ont
alors été envisagés dans les tests comparatifs :
– COFC-vue réalise un FKM indépendant dans chaque vue. Les matrices de partitions floues
résultantes sont ensuite fixées pour toutes les vues sauf celle dans laquelle se déroule le
clustering par COFC.
– COFCGlobal-vue réalise un FKM dans chaque vue, mais cette fois les matrices de partitions
floues évoluent par COFC simultanément dans dans toutes les vues.
2.5.3 Évaluation interne
Un premier objectif justifiant l’intérêt des approches centralisées concerne la stabilité de la
qualité du clustering final au regard de chacune des vues. L’idée est ici d’observer si le clustering
obtenu à l’issue du processus collaboratif est bon sur chacune des vues. Une telle observation
confirmerait l’idée qu’une bonne solution globale peut être obtenue tout en assurant que toutes
les vues s’accordent pour conforter la qualité de cette solution. La procédure d’évaluation interne
est la suivante :
– on compare les critères internes (inerties) obtenues par COFKM et ses variantes a priori et
a posteriori;
– on observe les valeurs de ses critères dans chacune des vues, et ceci à la fois avant et après
la règle d’affectation (2.32).
L’objectif visé est qu’une solution consensus soit bonne sur toutes les vues (stable) au sens du
critère interne avant la règle d’affectation, et que cette règle ne détériore pas trop cette stabilité.
Les figures 2.3 et 2.4 confirment l’intuition sur les approches multi-vues centralisées. Dans
les deux cas, au sens du critère interne et avant fusion, COFKM permet d’apprendre une solution
meilleure que celle de sa variante concaténée (a priori) et surtout l’écart entre les inerties locales
est plutôt faible dans le cas de l’approche centralisée (ce qui traduit la stabilité de la solution sur
toutes les vues). La version a posteriori est celle qui optimise localement les inerties (sans collaborations
entre les vues), elle se positionne comme une référence (avant fusion). En revanche,
si l’on observe l’impact de la règle d’affectation permettant d’obtenir un clustering unique pour
toutes les vues, la qualité de l’approche sans collaborations se détériore complètement. Le résultat
de référence après fusion est la concaténation qui reste inchangée puisque le degré d’appartenance
d’un individu aux groupes est le même dans toutes les vues (avant ou après la règle).
80 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE
0 1 2
200
220
240
260
280
300
320
340
360
380
400
Avant Fusion
CoFKM-h CoFKMpost
CoFKM-prio
Vues
Inerties
0 1 2
200
300
400
500
600
700
800
900
1000
Après Fusion
CoFKM-h CoFKMpost
CoFKM-prio
Vues
Inerties
FIGURE 2.3 — Comparaisons des valeurs de critère interne dans chaque vue avant et après fusion (règle
d’affectation) pour COFKM et ses variantes a priori et a posteriori pour 2D2K.
FIGURE 2.4 — Comparaisons des valeurs de critère interne dans chaque vue avant et après fusion (règle
d’affectation) pour COFKMet ses variantes a priori et a posteriori pour multiple features.
Nous constatons que COFKM devient sensiblement équivalent à sa variante concaténée. Une
autre façon de mesurer l’impact du désaccord sur le critère objectif de COFKM est d’observer la
proportion de ces deux valeurs. Cette mesure est faite dans le graphique fig.2.7.
2.5.4 Évaluation externe
L’évaluation externe vise à mesurer la performance de COFKM par rapport à l’état de l’art
dans l’objectif de retrouver une classification de référence. Les critères de mesure de performance
sont ceux décrits dans la section 1.5.3 : la F-mesure ou F-score (évaluée grâce au rappel
et à la précision), l’entropie moyenne ou AvgEnt et l’information mutuelle normalisée NMI.
Les différentes expériences réalisées visent à :
2.5. ÉVALUATION 81
– confirmer l’intérêt d’utiliser toutes les vues des données afin d’améliorer la qualité du
clustering produit ;
– insister sur l’importance de maintenir la recherche d’une solution réalisant un compromis
des différentes solutions locales naturelles ;
– étudier l’impact des paramètres _ et _ sur la qualité du clustering produit ;
– observer l’apport de l’extension pour le traitement de données décrites par des matrices
de similarités.
Intérêt de l’utilisation de toutes les descriptions.
Les premiers travaux autour du clustering de données multi-représentées visaient à démontrer
l’apport de l’utilisation conjointe des différentes vues afin de garantir une meilleure qualité du
clustering produit comparativement à l’utilisation d’une représentation unique. COFKM a ainsi
été éprouvé sur les jeux mfeat et 2D2K et comparé à FKM appliqué séparément sur chacune des
vues.
% F-mesure AvgEnt NMI
COFKM 92.01 _ 0.00 0.29 _ 0.00 0.91 _ 0.00
FKM-fac 66.69 _ 3.89 0.98 _ 0.09 0.70 _ 0.03
FKM-fou 33.19 _ 1.76 2.24 _ 0.06 0.32 _ 0.02
FKM-kar 23.04 _ 1.19 2.97 _ 0.09 0.11 _ 0.03
FKM-mor 57.04 _ 4.25 1.16 _ 0.11 0.65 _ 0.03
FKM-pix 70.41 _ 2.93 0.88 _ 0.06 0.74 _ 0.02
FKM-zer 42.56 _ 1.23 1.73 _ 0.03 0.48 _ 0.01
EM gmm(vs1)-fac 23.55 _ 4.20 2.65 _ 0.30 0.20 _ 0.09
EM gmm(vs1)-fou 18.12 _ 0.06 3.25 _ 0.03 0.02 _ 0.01
EM gmm(vs1)-kar 19.01 _ 0.48 3.10 _ 0.08 0.07 _ 0.02
EM gmm(vs1)-mor 38.20 _ 3.48 1.71 _ 0.15 0.48 _ 0.05
EM gmm(vs1)-pix 21.49 _ 2.16 2.79 _ 0.23 0.16 _ 0.07
EM gmm(vs1)-zer 18.66 _ 0.23 3.06 _ 0.07 0.08 _ 0.02
EM gmm(vs2)-fac 62.67 _ 5.20 1.06 _ 0.13 0.68 _ 0.04
EM gmm(vs2)-fou 42.73 _ 3.11 1.69 _ 0.09 0.49 _ 0.03
EM gmm(vs2)-kar 56.05 _ 2.45 1.25 _ 0.06 0.62 _ 0.02
EM gmm(vs2)-mor 57.13 _ 3.59 1.17 _ 0.10 0.65 _ 0.03
EM gmm(vs2)-pix 63.38 _ 5.68 1.01 _ 0.13 0.70 _ 0.04
EM gmm(vs2)-zer 40.39 _ 1.29 1.79 _ 0.05 0.46 _ 0.02
EM gmm(vs3)-fac 63.78 _ 5.64 0.99 _ 0.13 0.70 _ 0.04
EM gmm(vs3)-fou 45.50 _ 3.51 1.54 _ 0.10 0.54 _ 0.03
EM gmm(vs3)-kar 58.38 _ 3.59 1.11 _ 0.09 0.67 _ 0.03
EM gmm(vs3)-mor 50.40 _ 3.99 1.42 _ 0.11 0.57 _ 0.03
EM gmm(vs3)-pix 42.50 _ 4.18 1.57 _ 0.14 0.53 _ 0.04
EM gmm(vs3)-zer 37.05 _ 0.80 1.85 _ 0.03 0.44 _ 0.01
TABLEAU 2.1 — Évaluation externe sur mfeat de COFKM comparé aux approches mono-vues.
COFKM surpasse les approches floues et probabilistes FKM et EM selon différents modèles parcimonieux,
selon les 3 critères d’évaluation.
Les tableaux 2.1, 2.2 permettent d’observer le profit obtenu de l’utilisation conjointe de
toutes les représentations. Pour les deux jeux de données, COFKM surpasse assez nettement les
82 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE
% F-mesure AvgEnt NMI
COFKM 94.18 _ 0.00 0.18 _ 0.00 0.82 _ 0.00
FKM-2d2kv1 85.32 _ 5.88 0.40 _ 0.19 0.60 _ 0.19
FKM-2d2kv2 82.64 _ 0.00 0.45 _ 0.00 0.55 _ 0.00
FKM-2d2kv3 85.32 _ 5.88 0.40 _ 0.19 0.60 _ 0.19
EM gmm(vs1)-v1 79.19 _ 8.53 0.50 _ 0.21 0.50 _ 0.21
EM gmm(vs1)-v2 79.74 _ 4.26 0.50 _ 0.07 0.50 _ 0.07
EM gmm(vs1)-v3 79.19 _ 8.53 0.50 _ 0.21 0.50 _ 0.21
EM gmm(vs2)-v1 85.12 _ 5.82 0.40 _ 0.19 0.60 _ 0.19
EM gmm(vs2)-v2 82.64 _ 0.00 0.45 _ 0.00 0.55 _ 0.00
EM gmm(vs2)-v3 85.12 _ 5.82 0.40 _ 0.19 0.60 _ 0.19
EM gmm(vs3)-v1 82.80 _ 6.41 0.44 _ 0.20 0.56 _ 0.20
EM gmm(vs3)-v2 82.46 _ 1.54 0.46 _ 0.02 0.54 _ 0.02
EM gmm(vs3)-v3 82.80 _ 6.41 0.44 _ 0.20 0.56 _ 0.20
TABLEAU 2.2 — Évaluation externe sur 2D2K de COFKM comparé aux approches mono-vues.
COFKM surpasse les approches floues et probabilistes FKM et EM selon différents modèles parcimonieux,
selon les 3 critères d’évaluation.
approches floues et probabilistes FKM et EM quelque soit la représentation sur laquelle elles
sont appliquées, et selon tous les critères d’évaluation.
Intérêt de la recherche d’un compromis.
L’intérêt principal de la contribution COFKM est notamment de justifier le critère proposé
comme une variante du critère de COEM offrant des propriétés de convergence tout en maintenant
la recherche d’un accord entre les vues (_ ne décroît pas). De la même manière l’intérêt de
ce maintien est observé au regard de COFC qui dans son expression la plus simple fixe toutes les
vues sauf une dans laquelle une solution réalisant un accord est recherchée. Les tableaux 2.3 et
2.4 permettent de mesurer les qualités respectives de ces approches.
COFKM se comporte mieux sur le jeu de données mfeat où il surpasse les autres approches
de l’état de l’art. En revanche les résultats sont bien plus ténus sur le jeu 2D2K pour lequel une
variante parcimonieuse de COEM dans le cas d’un mélange de gaussiennes offre les meilleurs
résultats. Les résultats de COFC sont mauvais et tendent à produire des groupes déséquilibrés en
taille, ce qui tend à augmenter le Rappel mais diminuer la Précision, de même que la F-mesure.
En réalité cette dégénérescence est dû à l’imposition du paramètre de flou _ fixé à 2 dans le
critère objectif de COFC.
Enfin, dans le but de justifier empiriquement la démarcation de la contribution proposée par
rapport aux variantes de fusion a priori et a posteriori, l’approche à été évaluée comparativement
à celles-ci. Les tableaux 2.5 et 2.6 reflètent l’apport de la recherche d’un clustering par une
approche centralisée. COFKM se comporte mieux sur mfeat que les variantes a priori (concat)
et a posteriori déclinées identiquement de COFKM et COEM. Encore une fois les différences sur
2D2K sont moins flagrantes et cette fois la fusion a priori est plus efficace. Toutefois l’objectif
des approches centralisées n’est pas de surpasser les fusions a priori. Celle-ci n’est en effet pas
possible lorsque l’on se place dans un contexte général de données distribuées et de traitement
centralisés. Les informations de clustering (degrés d’appartenances et prototypes) sont moins
2.5. ÉVALUATION 83
% F-mesure AvgEnt NMI
COFKM 92.01 _ 0.00 0.29 _ 0.00 0.91 _ 0.00
COEM gmm(vs1) 39.81 _ 5.34 1.61 _ 0.13 0.52 _ 0.04
COEM gmm(vs2) 82.80 _ 4.44 0.50 _ 0.09 0.85 _ 0.03
COEM gmm(vs3) 74.96 _ 5.42 0.72 _ 0.12 0.78 _ 0.04
COFC-fac 51.73 _ 5.03 1.34 _ 0.16 0.60 _ 0.05
COFC-fou 55.88 _ 4.85 1.23 _ 0.13 0.63 _ 0.04
COFC-kar 56.13 _ 4.91 1.23 _ 0.14 0.63 _ 0.04
COFC-mor 59.74 _ 5.72 1.17 _ 0.15 0.65 _ 0.05
COFC-pix 52.56 _ 5.11 1.32 _ 0.16 0.60 _ 0.05
COFC-zer 56.61 _ 4.79 1.19 _ 0.14 0.64 _ 0.04
COFC Global-fac 30.77 _ 0.08 2.47 _ 0.01 0.26 _ 0.00
COFC Global-fou 31.00 _ 0.07 2.45 _ 0.01 0.26 _ 0.00
COFC Global-kar 31.00 _ 0.05 2.45 _ 0.01 0.26 _ 0.00
COFC Global-mor 31.22 _ 0.03 2.45 _ 0.00 0.26 _ 0.00
COFC Global-pix 30.81 _ 0.05 2.46 _ 0.01 0.26 _ 0.00
COFC Global-zer 30.58 _ 0.03 2.43 _ 0.00 0.25 _ 0.00
TABLEAU 2.3 —Évaluation externe sur mfeat de COFKM comparé aux approches centralisées multi-vues.
COFKM surpasse les approches COEM et COFC, selon les 3 critères d’évaluation.
% F-mesure AvgEnt NMI
COFKM 94.18 _ 0.00 0.18 _ 0.00 0.82 _ 0.00
COEM gmm (vs1) 93.85 _ 1.09 0.18 _ 0.02 0.82 _ 0.02
COEM gmm (vs2) 95.12 _ 0.00 0.15 _ 0.00 0.85 _ 0.00
COEM gmm (vs3) 66.62 _ 0.00 1.00 _ 0.00 0.00 _ 0.00
COFC-v1 88.84 _ 6.20 0.30 _ 0.14 0.70 _ 0.14
COFC-v2 91.95 _ 2.94 0.23 _ 0.07 0.77 _ 0.07
COFC-v3 88.84 _ 6.20 0.30 _ 0.14 0.70 _ 0.14
COFC Global-v1 91.22 _ 0.00 0.25 _ 0.00 0.75 _ 0.00
COFC Global-v2 94.17 _ 0.00 0.19 _ 0.00 0.81 _ 0.00
COFC Global-v3 91.22 _ 0.00 0.25 _ 0.00 0.75 _ 0.00
TABLEAU 2.4 — Évaluation externe sur 2D2K de COFKM comparé aux approches centralisées multivues.
COEM pour un modèle parcimonieux classique dépasse l’approche COFKM, selon les 3 critères
d’évaluation.
coûteuses à échanger et transférer que les descriptions des individus elles mêmes. De plus les informations
de clustering offrent un résumé et ne dévoilent pas la nature d’un individu particulier,
et ainsi respecte la confidentialité des données.
Impact des paramètres sur la qualité du clustering.
COFKM nécessite, pour garantir une certaine flexibilité, de définir deux paramètres _ et _
représentant le degré de flou, ainsi que l’importance de l’accord souhaité. Des expériences ont
permis de mesurer l’influence de chacun de ces paramètres et de justifier les heuristiques. Elles
sont représentées dans les graphiques Fig. 2.5.
84 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE
% F-mesure AvgEnt NMI
COFKM 92.01 _ 0.00 0.29 _ 0.00 0.91 _ 0.00
COFKM post 55.72 _ 4.28 1.21 _ 0.12 0.64 _ 0.04
COEM gmm post(vs1) 27.46 _ 9.01 2.53 _ 0.54 0.24 _ 0.16
COEM gmm post(vs2) 57.20 _ 5.22 1.18 _ 0.14 0.65 _ 0.04
COEM gmm post(vs3) 45.64 _ 5.21 1.54 _ 0.15 0.54 _ 0.05
FKM concat 90.42 _ 3.44 0.33 _ 0.07 0.90 _ 0.02
EM concat(vs1) 32.51 _ 6.68 1.77 _ 0.25 0.47 _ 0.08
EM concat(vs2) 77.90 _ 5.72 0.56 _ 0.12 0.83 _ 0.04
EM concat(vs3) 60.10 _ 5.53 1.04 _ 0.14 0.69 _ 0.04
TABLEAU 2.5 —Comparaison entre COFKM, et les variantes a priori et a posteriori pour multiple features.
% F-mesure AvgEnt NMI
COFKM 94.18 _ 0.00 0.18 _ 0.00 0.82 _ 0.00
COFKM post 86.28 _ 13.27 0.34 _ 0.27 0.66 _ 0.27
COEM gmm post(vs1) 80.43 _ 14.21 0.45 _ 0.29 0.55 _ 0.29
COEM gmm post(vs2) 86.60 _ 14.69 0.32 _ 0.29 0.68 _ 0.29
COEM gmm post(vs3) 85.47 _ 13.36 0.36 _ 0.27 0.64 _ 0.27
FKM concat 96.27 _ 0.00 0.13 _ 0.00 0.87 _ 0.00
EM concat(vs1) 93.18 _ 8.22 0.19 _ 0.15 0.81 _ 0.15
EM concat(vs2) 96.27 _ 0.00 0.13 _ 0.00 0.87 _ 0.00
EM concat(vs3) 96.07 _ 0.00 0.14 _ 0.00 0.86 _ 0.00
TABLEAU 2.6 — Comparaison entre COFKM, et les variantes a priori et a posteriori pour 2D2K.
FIGURE 2.5 — Influence des paramètres _ et _ sur COFKM pour mfeat (à gauche) et 2D2K (à droite).
Selon le jeu de donnée le paramétrage idéal n’est pas le même, ce qui conforte l’idée de proposer une
approche plus flexible.
Pour 2D2K, on peut choisir n’importe qu’elle valeur de _ au delà de _ = 1:1 et on peut
observer que l’heuristique pour _ = nr1
2_nr
= 1
3 donne de bons résultats. Pour mfeat, une valeur
appropriée pour _ devrait être proche de 1:2. La valeur _ = 2 donne de très mauvais résultats
pour COFKM, ce qui confirme les résultats obtenus sur COFC à valeur identique du paramètre
2.5. ÉVALUATION 85
de flou. Le choix heuristique de _ = nr1
2_nr
= 5
12 donne encore une fois des résultats corrects
(Fig.2.6).
0.6
0.65
0.7
0.75
0.8
0.85
0.9
0.95
0 0.2 0.4 0.6 0.8 1
F-Score
ç
Fusion a posteriori
Fusion a priori (concat)
CoFKM
FIGURE 2.6 — COFKM sur mfeat pour différentes
valeurs de _. On remarque que l’heuristique de
choix de _ permet de dépasser la performance de
la fusion a priori.
5900
6000
6100
6200
6300
6400
6500
5 10 15 20 25 30
350
400
450
500
550
600
Q(CoFKM)
desaccord
iterations
Q(CoFKM)
desaccord
FIGURE 2.7 — Évolution du critère COFKM sur
mfeat.
Apports de la variante à noyaux
COKFKM a été également étudié empiriquement sur une partie du jeu de données WebKB (les
100 premiers individus). Ce jeu est assez difficile à traiter, puisqu’il réunit un certain nombre de
conditions néfastes pour les approches de classification usuelles :
– la dimensionnalité est très élevée comparée aux nombre d’individus (documents) disponibles
;
– dans la vue représentant le contenu des liens entrants, beaucoup d’individus n’ont pas de
descriptions ;
– les tailles des classes sont déséquilibrées.
Le modèle COFKM a été comparé avec COEM pour un mélange de lois multinomiales, puis
avec l’extension COKFKM en choisissant comme matrices de similarité, la distance du cosinus
entre les documents, considérée comme plus efficace sur les données textuelles que les produits
scalaires classiques. Il s’agit en fait, de normaliser ces derniers par la taille des vecteurs documents
correspondant. Soient xi et xj deux vecteurs de termes correspondant à des descriptions
de deux documents, la matrice de similarité du cosinus Kcos entre xi et xj est définie par :
K(r)
cosij =
hx(r)
i ; x(r)
j i
jjx(r)
i jj2:jjx(r)
j jj2
Dans le cas où les vecteurs de documents sont centrés et réduits, il s’agit d’une reformulation
dans le cadre de la Recherche d’Information, de la corrélation entre xi et xj .
Les algorithmes COKFKM, COFKM et COEM ont été modifiés pour prendre en compte notamment
les descriptions vides de la plupart des individus. En effet, lorsqu’un objet n’a pas de
description dans une vue, on ne l’intègre pas dans la définition des centres (dans COFKM), ou
par le calcul des distances aux centres (dans COKFKM).
De plus, et afin d’obtenir une version moins coûteuse en temps que l’approche COKFKM,
une version accélérée de COKFKM est proposée. Elle correspond à une variante dans laquelle
86 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE
la définition des distances aux centres (2.39) est réexprimée, de sorte à ne pas tenir compte
de tous les individus, mais seulement d’un pourcentage prédéfini parmi les plus proches. Dans
l’esprit, ce principe tend à faire comporter COKFKM comme une variante moins floue et plus
proche d’une extension multi-vues de KM. Soit q% le pourcentage prédéfini, on peut associer à
chaque centre ck l’ensemble N(ck) des q = q%n individus ayant les degrés d’appartenance au
groupe Ck les plus élevés. Ainsi, étant donnés xi, ck et r, si l’on veut calculer d2(
r)(xi; ck
_), nous
ne considérerons que les q% = n
nk
individus xi 2 N(ck) qui sont les plus représentatifs du groupe
Ck :
d2 (r)(xi; ck
_) = K(r)
ii 2
X
xj2N(ck)
u(r)
jk_
_
K(r)
ij
X
xj2N(ck)
u(r)
jk_
_ +
X
xj2N(ck)
X
xl2N(ck)
u(r)
jk_
_
u(r)
lk_
_
K(r)
jl
_ X
xj2N(ck)
u(r)
jk_
_
_2
Le choix heuristique q% = n
nk
correspond à l’hypothèse d’homogénéité de la taille des
groupes.
FIGURE 2.8 — Tests comparatifs entre COKFKM, COFKM et COEM.
La figure 2.8 montre l’évolution de l’entropie moyenne en fonction du nombre de groupes.
COEM se comporte mieux que COFKM, mais l’apport le plus significatif concerne l’utilisation de
matrices noyaux cosinus, ce qui n’est pas gérable tel quel par COEM. Les résultats obtenus par
COKFKM sont sensiblement équivalents à ceux obtenus par concaténation avec une approche
FKM à noyau classique. Enfin, l’accélération est une heuristique prometteuse et elle laisse entrevoir
des perspectives sur l’extension à noyaux.
2.6. DISCUSSION 87
2.6 Discussion
Les contributions COFKM et COKFKM réalisent un traitement centralisé de données multivues,
ou multi-sources éventuellement décentralisées. Elles s’inscrivent complètement dans le
paradigme des approches discriminatives vues comme des problèmes d’optimisation d’un critère
objectif pénalisé : le compromis entre la recherche de clusterings locaux dans chaque vue et la
recherche d’un accord. COFKM permet de concilier les approches floues qui se retrouvent régulièrement
parmi les méthodes de clustering centralisées, avec les approches probabilistes de type
COEM en offrant de bonnes propriétés de convergence quelque soit l’importance de la recherche
d’une solution consensus. L’algorithme proposé est simple, intuitif, facilement implémentable et
parallélisable. Il est flexible de par son paramétrage mais reste contrôlable par le nombre réduit
de ces paramètres. Il est facilement extensible par sa variante à noyaux et permet de prendre
en compte des données multi-vues où celles-ci sont décrites, soit par des représentations vectorielles,
soit par des tableaux relationnels.
Malgré les avantages, COFKM et COKFKM sont limités sur plusieurs aspects. Tout d’abord,
à l’image de COEM, le nombre de groupes doit être donné et identique dans toutes les vues,
ce qui est extrêmement restrictif. Il est en général admis que le nombre naturel de groupes
dans chaque vue soit différent. Cependant, dans le contexte où l’on cherche un clustering unique
des individus, cet argument négatif semble ne plus tenir. Un autre inconvénient concerne la
recherche des clusterings locaux. Celle-ci est réalisée uniquement selon l’objectif de FKM. Cette
imposition restreint encore une fois l’approche car elle ne permet pas de prendre en compte
la recherche d’un clustering local adapté dans le cas où les individus sont distribués selon des
formes arbitraires, et non nécessairement des classes convexes et bien séparées. Ceci est gérable,
mais difficile à contrôler, par l’utilisation de matrices de proximité adaptées dans chaque vue
et l’utilisation de COKFKM. La difficulté de découvrir des groupes de formes arbitraires dans
l’espace de description d’origine est alors reportée sur la construction de matrices de similarité
adaptées capables de suggérer un nouvel espace dans lequel les groupes seraient compactes et
bien séparés, à l’image du Laplacien normalisé de SC (cf. section 1.3.1.2).
2.7 Conclusion
Ce chapitre a permis de présenter la problématique du clustering multi-vues. L’étude a été
centrée sur les approches dites centralisées, et les différentes alternatives proposées dans la littérature
ont été dressées. Les contributions proposées prennent leurs racines dans quelques-unes
de ces approches, COFC et COEM, afin de les étendre et de tirer parti du meilleur de chacune.
L’approche COFKM définie présente de bonnes propriétés puisqu’elle généralise différentes solutions
de fusion, permet de lui associer une solution algorithmique efficace et convergente,
se compose de peu de paramètres et est donc moins sensible à ce paramétrage. L’extension
COKFKM permet de traiter les cas où les données sont décrites par plusieurs matrices de similarité
et est ainsi beaucoup plus flexible pour gérer des cas concrets d’applications. Les résultats
empiriques développés valident les contributions et viennent confirmer l’apport de celles-ci comparé
aux approches existantes.
Les divers inconvénients relevés notamment lors de rencontres avec des spécialistes de la
communauté fouille de données ont permis de réfléchir à d’autres techniques de classification
non supervisée, réalisant un minimum d’hypothèses sur la forme de la distribution des individus
dans chaque représentation (ou le critère objectif local correspondant) ou le nombre de
groupes local le plus adapté. L’idée est de proposer un traitement séquentiel sur l’ensemble des
représentations de sorte que pour chaque représentation, la recherche d’un clustering soit guidée
par les derniers résultats émanant des autres vues et considérés comme autant de superviseurs.
88 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE
L’approche envisagée se fonde alors sur des éléments d’apprentissage semi-supervisé dont il est
question dans le prochain chapitre.
Classification non supervisée et 3
intégration de connaissances
Sommaire
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.2 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.3 Approches par satisfaction des contraintes . . . . . . . . . . . . . . . . . . . 92
3.3.1 COP-KMEANS : les K-moyennes sous contraintes . . . . . . . . . . . . . 92
3.3.2 CCHC : clustering semi-supervisé hiérarchique en lien complet . . . . . 94
3.3.3 SSEM : estimation d’un mélange de modèle semi-supervisé . . . . . . . 95
3.4 Approches par objectif pénalisé . . . . . . . . . . . . . . . . . . . . . . . . . 98
3.4.1 PCKM : les K-moyennes contraintes pénalisées . . . . . . . . . . . . . 98
3.4.2 SSKM : les K-moyennes semi-supervisées . . . . . . . . . . . . . . . . . 100
3.5 Approches par altération de la proximité . . . . . . . . . . . . . . . . . . . . 101
3.5.1 LLMA : adaptation localement linéaire de la métrique . . . . . . . . . 101
3.6 Approches indépendantes de l’algorithme de clustering . . . . . . . . . . . 104
3.6.1 BC : BoostCluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
3.7 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
3.7.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
3.7.2 BOC : boosting de clustering . . . . . . . . . . . . . . . . . . . . . . . . 109
3.7.3 UZABOC et ADAUZABOC : boosting simple et adaptatif de clustering
par optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
3.8 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
3.8.1 Données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
3.8.2 Protocole expérimental . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
3.8.3 Évaluation interne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
3.8.4 Évaluation externe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
3.9 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
3.10 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
90 CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES
3.1 Introduction
Ce chapitre présente les contributions apportées au clustering semi-supervisé, les approches
BOC et UZABOC. Ces propositions ont été publiées dans la communauté internationale de
fouille de données et la communauté francophone de classification [Sublemontier et al., 2011c],
[Sublemontier et al., 2011b]. Le contexte scientifique et la problématique seront rappelés. Seront
développées également une famille d’algorithmes de clustering semi-supervisés ainsi que
quelques approches d’apprentissage de distances apportant des solutions au problème. Il sera
précisé à chaque fois, à l’image des chapitres précédents, le type d’approche (algoithmique pure,
discriminative ou générative). Ensuite sera détaillée une approche particulière de l’état de l’art,
concernant les approches dites indépendantes de l’algorithme de clustering. Pour finir, les études
empiriques réalisées valideront les contributions et quelques perspectives d’amélioration seront
discutées.
L’objectif des approches de clustering semi-supervisées est de produire une structure permettant
d’organiser les données tout en satisfaisant des contraintes fournies pour certaines paires
d’individus à regrouper ensemble ou non. La notation choisie pour refléter au mieux les différentes
approches proposées est la suivante :
NOTATION
n : le nombre d’individus à regrouper.
np : le nombre d’attributs décrivant les individus.
nk : le nombre de groupes à identifier.
nc : le nombre de classes associé aux données.
X = fx1; :::; xng : l’ensemble des n individus à partitionner.
X 2 Rn_np : la représentation matricielle de X.
xi 2 Rnp : la représentation vectorielle de l’individu xi.
C = fC1; :::;Cnkg : la structure de clustering en nk groupes à construire.
c = fc1; :::; cnkg : l’ensemble des nk prototypes des groupes.
C = fC1; :::; Cncg : l’ensemble des nc classes d’individus à retrouver.
D = fD0; :::;Dng : la structure de dendrogramme associée aux données.
d(xi; xj) : la distance au sens général entre deux individus xi et xj .
dP (xi; xj) : la distance entre xi et xj dans un sous-espace P.
jjxi xj jjp : la distance de Minkowski entre deux individus xi et xj .
ML : l’ensemble des (xi; xj) 2 X2 devant être regroupés.
CL : les (xi; xj) 2 X2 devant être séparés.
m : le nombre de contraintes ML et CL.
m+ : le nombre de contraintes ML.
m : le nombre de contraintes CL.
A : l’algorithme de clustering employé pour obtenir C.
Link(xi; xj ;A) : xi et xj sont regroupés par A.
Link(xi; xj ;A) : xi et xj sont séparés par A.
H 2 f0; 1gn_n : la matrice de clustering associée à C
3.2 Contexte
La problématique du clustering semi-supervisé [Davidson and Basu, 2007] correspond à la
recherche d’un clustering des individus, par un algorithme de clustering A, devant respecter un
3.2. CONTEXTE 91
ensemble de connaissances de classification sur certaines paires d’individus. Ces connaissances
prennent la forme de contraintes notées ML et CL telles que :
– deux individus xi et xj liés par une contrainte ML (must-link) doivent être regroupés par
A, plus formellement :
(xi; xj) 2 ML ) Link(xi; xj ;A)
– deux individus xi et xj liés par une contrainte CL (cannot-link) doivent être séparés par
A, plus formellement :
(xi; xj) 2 CL ) Link(xi; xj ;A)
On parle alors également de clustering contraint. Les contraintes peuvent être :
– données par l’utilisateur pour guider la recherche d’une solution particulière respectant
des résultats obtenus par d’autres moyens (expérience, etc.) ;
– extraites à partir de sources d’information externes pouvant provenir d’autres vues des
données à traiter.
Ce problème, issu plutôt des applications, à néanmoins donné lieu à beaucoup d’études
théoriques et de propositions d’algorithmes. Il a notamment donné naissance au problème de
l’intégration de connaissances externes pour la recherche d’un clustering de meilleure qualité,
légèrement différent du problème d’origine dans la mesure où les contraintes données sont vues
comme un moyen d’améliorer la performance des algorithmes de clustering.
Historiquement, les premières approches se sont focalisées sur le respect absolu, au sens
de la satisfaction logique, de ces contraintes par un algorithme de clustering A prédéfini. Ces
travaux remontent à l’aube des années 2000 avec la thèse de Kiri Wagstaff alors à l’université
de Cornell, NY, qui fût un des précurseurs de ce champ de recherche. L’idée était de modifier
le coeur des algorithmes de clustering (COBWEBet KM) de telle sorte que les groupes formés
ne devaient violer aucune contraintes [Wagstaff and Cardie, 2000] ; [Wagstaff et al., 2001]. Les
travaux menés notamment par l’équipe de Ian Davidson à Albany, NY, concernant ce type d’intégration
de contraintes, ont vite montré leurs limites au niveau computationnel ainsi qu’au
niveau de la satisfiabilité [Davidson and Ravi, 2005a] ; [Davidson and Ravi, 2005b]. Parallèlement
à ces études, d’autres équipes de recherche, notamment Dan Klein à Stanford ont suggéré
qu’une autre voie pour satisfaire les contraintes données était d’altérer la mesure de proximité
disponible ou dérivée des données afin de s’assurer qu’un algorithme bien choisi réussirait à respecter
les contraintes [Klein et al., 2002]. Ces travaux intègrent notamment un second principe
important dans la thématique de recherche, qui est l’induction de nouvelles contraintes à partir
des premières. Cela permet d’accroître l’efficacité des approches de clustering contraint tout en
conservant une faible quantité de contraintes, possiblement coûteuses, à fournir. La transformation
de la représentation d’origine des individus ou de manière quasi-équivalente, de la mesure
de proximité associée aux individus va devenir le socle de nombreuses approches censées répondre
à la problématique.
L’idée de satisfaire au mieux les contraintes deviendra centrale par la suite, et d’autant plus
que l’on considérera une certaine forme d’incertitude associées aux contraintes que l’on estimera
désormais devoir satisfaire au mieux. Dans ce nouveau contexte de quasi-satisfaction des
contraintes, les travaux ont consisté, pour les algorithmes basés sur l’optimisation d’une fonction
objectif, à modifier le critère de sorte que des contraintes non satisfaites conduisent à une
pénalisation de celui-ci, comme proposé par Sugato Basu [Basu et al., 2004]. Ils ont ensuite été
améliorés dans le but de transformer cette forme de pénalisation de critère, en altération de la
mesure de proximité entre les individus comme l’a proposé Kulis [Kulis et al., 2005]. Pour dresser
un premier bilan de ces approches, nous constatons que l’intégralité d’entre elles nécessitait
d’imposer le critère objectif et/ou l’algorithme de clustering lui-même.
92 CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES
Une autre famille d’approches plus indépendantes vis à vis de l’algorithme de clustering utilisé,
a consisté à considérer le problème de l’intégration des contraintes comme un problème
d’apprentissage de proximité (distance et ou similarité), ou de nouvel représentation des individus
dans laquelle des objets devant être regroupés (resp. séparés) doivent être proches (resp.
éloignés) dans la nouvelle représentation. Une fois la nouvelle proximité induite, n’importe quel
algorithme de clustering peut être appliqué sous réserve de correspondance entre le type de
proximité apprise et le type de proximité sur lequel se fonde l’algorithme (une distance euclidienne
pour KM) [Xing et al., 2002a] ; [Zhang et al., 2003]. L’issu de ces travaux est que l’apprentissage
de cette nouvelle représentation n’est pas du tout remis en cause par les résultats
observés sur l’algorithme de clustering employé. En d’autres termes, finalement, un contrôle de
l’impact de la nouvelle représentation sur le clustering produit n’est pas possible.
Parmi les travaux les plus récents censés répondre à cette nouvelle problématique d’une
intégration contrôlée de contraintes pour améliorer effectivement n’importe quel algorithme de
clustering, nous nous sommes intéressé à BOOSTCLUSTER, proposé par Liu [Liu et al., 2007]. Ce
type d’approche permet de construire de manière incrémentale un ensemble d’hypothèses de
clustering. Les différentes familles d’approches permettant d’intégrer des connaissances externes
sont représentées dans les schémas Fig. 3.1.
X
CL, ML
A
Intégration + A C
X
CL, ML
Intégration A C
X
CL, ML
A H
C
H stable
Intégration
FIGURE 3.1 —Les différents types d’intégration dans le clustering semi-supervisé. Dans l’ordre, ci-dessus,
l’intégration de contraintes dans l’algorithme A prédéfini, l’intégration de contraintes dans la définition
de la proximité, avant l’application de l’algorithme A quelconque et enfin l’intégration contrôlée par
l’algorithme de clustering quelconque A.
La contribution de ce chapitre correspond à des alternatives à cette approche, selon différents
paradigmes de résolution. La première contribution BOC se fonde sur le principe du
boosting de manière semblable à BOOSTCLUSTER. La seconde contribution UZABOC utilise des
éléments d’optimisation numérique. Le chapitre est organisé comme suit : après avoir détaillé
plus formellement les approches clés du développement autour du clustering semi-supervisé ou
clustering contraint, citées précédemment de manière introductive, je présenterai les concepts
apportés par BOOSTCLUSTER puis les concepts que nous proposons ainsi que les différentes approches.
Nous conclurons sur notre étude de la problématique après avoir réalisé une étude
empirique de l’approche et dressé quelques perspectives.
3.3 Approches par satisfaction des contraintes
3.3.1 COP-KMEANS : les K-moyennes sous contraintes
L’approche COP-KMEANS [Wagstaff et al., 2001] est parmi les premières approches de clustering
semi-supervisé. Il s’agit d’une approche discriminative basée sur l’algorithme KM (1.3.1.1).
Objectif
3.3. APPROCHES PAR SATISFACTION DES CONTRAINTES 93
L’objectif est de déterminer les prototypes optimaux d’un ensemble de nk groupes de telle
sorte que les groupes ainsi constitués ne violent aucune contrainte. On peut formaliser cet objectif
sous la forme d’un problème d’optimisation sous contraintes de la manière suivante :
min
c; C
QKM(c;C) = min
c;C
Xnk
k=1
X
xi2Ck
jjxi ckjj22
s:t: C2
k [ \ CL = ; 8Ck 2 C
1_k_nk
(C2
k \ML) = ML
(3.1)
L’espace des solutions associé à ce problème d’optimisation est alors réduit pour ne contenir
que les solutions satisfaisant effectivement les contraintes ML et CL données.
Algorithme
Le problème étant trop difficile à résoudre analytiquement, les auteurs proposent alors une
approche purement algorithmique (algorithme 17) pour le résoudre. Ainsi, à l’image de KM, l’algorithme
alterne une mise à jour des groupes et des prototypes de groupes selon le principe de
résolution d’un système d’équation par une méthode itérative en partant d’une initialisation prédéfinie
des prototypes de groupe. L’initialisation est aléatoire dans le but d’avoir plus de chance
d’atteindre l’optimum global si il existe, après plusieurs exécutions de l’algorithme. La mise à
jour (ou construction) des groupes C_
k est différente de la règle classique de KM puisqu’elle est
conditionnée par le respect de toutes les contraintes. Pour ce faire, les auteurs proposent un
algorithme heuristique. L’idée est de parcourir dans l’ordre l’ensemble X et d’affecter chaque
individu xi au groupe le plus proche tel qu’aucune contrainte ne soit violée. Cette affectation
peut se formaliser par la règle :
8xi 2 X 8(xi; xj) 2 ML 8(xi; xj0) 2 CL; (3.2)
9C_
k
(ck = arg min
c2fc1;:::;cnk
g
Xnk
k=1
X
xi2C_
k
jjxi cjj22) ^ xj 2 C_
k ^ xj0 =2 C_
k
_
) C_
k = C_
k [ fxig
Notons qu’il est possible de ne pouvoir affecter xi à aucun groupe, si notamment pour tous
les groupes il existe un individu xj dans ceux-ci tel que (xi; xj) 2 CL. De plus il s’agit d’une règle
heuristique qui rend la recherche de la solution optimale gloutonne, dans le sens où l’obtention
de la solution optimale est dépendante de l’ordre de parcours des individus lors de la construction
des groupes. La règle de mise à jour des prototypes de groupes, elle, est la même que celle
de KM, i.e. c_
k est le centre de gravité du groupe C_
k :
c_
k =
1
jCkj
X
xi2Ck
xi
Discussion
Le premier problème qui n’en est réellement un que selon le cadre applicatif, est qu’il peut
ne pas exister de solution. Dans un contexte applicatif où l’utilisateur veut obtenir un clustering
des individus satisfaisant les contraintes, l’approche est limitée, car si l’ensemble des contraintes
forme une théorie inconsistante, alors il n’existe par définition aucun moyen de les satisfaire
toutes simultanément et l’espace des solutions associé au problème d’optimisation est vide.
94 CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES
Algorithme 17 Cop K-moyennes
ENTRÉES : X, nk, ML, CL
SORTIES : C = fC1; :::;Cnkg
1 : Initialisation aléatoire des nk centres de groupes fc1; :::; cnkg
2 : Mise à jour des groupes Ck 8k 2 [1::nk] en utilisant la règle d’affectation (3.2)
3 : Mise à jour des centres de groupe ck 8k 2 [1::nk] en utilisant (3.3)
4 : Si QKM change alors aller en 2
Ainsi, il est préférable de pouvoir relâcher quelques contraintes pour être sûr de pouvoir fournir
un clustering à l’utilisateur, mais cette tâche est difficile au sens de la complexité, puisque le
problème de satisfiabilité de l’ensemble des contraintes est à lui seul NP-complet. Le second problème
est que l’algorithme est dépendant de l’ordre de parcours des individus lors de l’étape de
construction des groupes ce qui rend l’application de l’algorithme moins bien contrôlé et atténue
les garanties sur l’obtention de l’optimum (toujours local).
3.3.2 CCHC : clustering semi-supervisé hiérarchique en lien complet
Une autre approche purement algorithmique a été développée par [Klein et al., 2002]. Elle
vise a tirer parti d’un faible ensemble de contraintes, dans le but d’induire un plus grand ensemble
de contraintes favorisant l’amélioration de la qualité d’un clustering. L’algorithme s’appuie
sur le postulat qu’un individu xi proche d’un autre individu xj impliqué dans une contrainte
(xj ; xl) 2 ML (resp. (xj ; xl) 2 CL) doit être impliqué dans le même type de contrainte (xi; xl) 2
ML (resp. (xi; xl) 2 CL), plus formellement :
8(xi; xj) 2 X2; (xi proche de xj ^ (xj ; xl) 2 ML) ) (xi; xl) 2 ML
8(xi; xj) 2 X2; (xi proche de xj ^ (xj ; xl) 2 CL) ) (xi; xl) 2 CL
Algorithme
Pour réaliser effectivement l’idée du postulat, les auteurs proposent de réaliser implicitement
une projection non linéaire des individus de X dans un certain espace non défini. Partant de
X _ Rp et d’une mesure de distance sur Rp, les auteurs proposent une gestion séparée des
contraintes de type ML et des contraintes de type CL. Pour les contraintes ML, les auteurs
proposent d’imposer directement une valeur de distance nulle entre les individus impliqués dans
une de ces contraintes, ainsi :
8(xi; xj) 2 X2; (xi; xj) 2 ML ) d(xi; xj) = 0 (3.3)
L’étape d’induction de nouvelles contraintes est réalisée en appliquant un algorithme de plus
court chemin entre toutes les paires d’individus, dans le but de rétablir pour d les propriétés
d’une métrique pour Rp. Par ce choix d’intégration de contraintes ML, on espère que tout
algorithme de clustering les satisfasse normalement. La gestion des contraintes CL est quant à
elle réalisée, dans un premier temps, en imposant une valeur maximum de distance entre les
individus impliqués dans de telles contraintes :
8(xi; xj) 2 X2; (xi; xj) 2 CL ) d(xi; xj) = max
(xi;xj )2X2
d(xi; xj) + 1 (3.4)
Ce type d’intégration ne garanti pas qu’un algorithme de clustering satisfasse exactement
les contraintes CL. Les auteurs proposent dans ce cas de choisir un algorithme de clustering
3.3. APPROCHES PAR SATISFACTION DES CONTRAINTES 95
particulier pour respecter l’ensemble des contraintes : l’algorithme de clustering hiérarchique
par lien complet CLINK (section 1.2.2 du chapitre 2). Ainsi, si deux amas (groupes) A1 et A2
contiennent respectivement deux individus x1 et x2 impliqués dans une même contrainte CL,
alors la distance entre A1 et A2 est la plus élevée et les amas ne sont pas fusionnés par CLINK (2).
Les individus impliqués dans une contrainte ML sont quant à eux regroupés dès la base du
dendrogramme.
Algorithme 18 CCHC
ENTRÉES : X, d(:; :), nk, ML, CL
SORTIES : D
1 : Intégrer les contraintes ML par (3.3)
2 : Appliquer l’algorithme du plus court chemin 8(xi; xj) 2 X2
3 : Intégrer les contraintes CL par (3.4)
4 : Construire D par CLINK
Discussion
L’approche CCHC s’avère extrêmement efficace pour satisfaire absolument les contraintes
données et induire de bonnes contraintes lorsque le postulat de départ est vérifié. Cependant
la mise en oeuvre par altération de la proximité est trop brutale, et la description des individus
perd son sens, ou au moins aucun lien n’est fait a posteriori entre la nouvelle distance apprise et
la description des individus lorsqu’elle existe (importance de certains descripteurs relativement
aux autres). De plus, il peut arriver à l’image de COP-KMEANS qu’il n’existe pas de solutions
satisfaisant les contraintes. Les cas extrêmes sont rares, mais ils existent notamment :
– si tous les individus de X sont impliqués dans l’ensemble des contraintes ML, alors un
clustering de nk _ 2 groupes violera au moins une de ces contraintes.
– si l’ensemble des contraintes CL contient une clique de taille c, alors un clustering de nk < c
groupes violera au moins une de ces contraintes.
Finalement, les auteurs s’attachent à préserver la caractérisation de la proximité apprise d
qui doit être une métrique. Ceci est validé par l’application de l’algorithme de plus court chemin
sur toutes les paires d’individus. En revanche lors de l’intégration des contraintes CL, cette
caractérisation est perdue. En effet, si on dispose de (x1; x2; x3; x4) 2 X3 tels que (x1; x2) 2 ML,
(x2; x3) 2 ML, (x1; x3) 2 CL et x4 n’est impliqué dans aucune contrainte, alors on a :
d(x1; x3) = max
(xi;xj )2X2
d(xi; xj) + 1 = D
d(x1; x2) = d(x2; x3) = 0
et ainsi D = d(x1; x3) > d(x1; x2) + d(x2; x3) = 0 ce qui contredit l’inégalité triangulaire (cf.
section 1.5.4).
3.3.3 SSEM : estimation d’un mélange de modèle semi-supervisé
Le clustering par estimation de paramètre d’un modèle de mélange gaussien a également été
étendu au clustering semi-supervisé par [Shental et al., 2003]. Dans cette approche, les auteurs
proposent d’intégrer les deux types de contraintes ML et CL a travers la définition d’un modèle
adapté étendant le modèle de mélange simple.
Modèle
96 CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES
Pour rappel, le modèle de mélange (cf. section 1.4.2) est défini par :
f(Xi; _) =
Xnk
k=1
_kfk(xi; _k)
où les _k et les fk(xi; _k) correspondent respectivement aux valeurs de probabilité a priori de
la sélection de la k-ième composante et à la fonction de densité gaussienne correspondant à la
variable Xi paramétrée par _k = (ck;_k).
Les auteurs proposent de reprendre l’expression du modèle d’une part pour intégrer les
contraintes ML. Ainsi ils redéfinissent l’échantillon X comme l’union de sous-ensembles disjoints
appelés chunklets :
X =
[nl
l=1
Xl
où chaque chunklet Xl correspond à un ensemble d’individus devant partager la même étiquette
l, et par extension, liés par une contrainte ML. nl désigne le nombre naturel de chunklets défini
par les contraintes ML ou par l’absence de contraintes. Ainsi, les individus non impliqués dans
une contrainte ML définissent à eux seuls un chunklet. Dans ce contexte, les chunklets sont
complétés par un vecteur aléatoire Zl indiquant pour chaque individu xi d’un chunklet Xl le
groupe auquel il semble appartenir et les données X sont complétées par Z = (Z1; : : : ;Znl).
Pour l’intégration des contraintes CL les auteurs remarquent que l’hypothèse d’une distribution
i.i.d des variables cachées Zl correspondantes aux chunklets est violée car il faut maintenir le
fait que deux individus xi et xj , appartenant respectivement aux chunklets Xl1 et Xl2 et tels
que (xi; xj) 2 CL entraîne que les réalisations des variables cachées Zl1 et Zl2 doivent être
différentes :
8(xi; xj) 2 Xl1 _ Xl2 (xi; xj) 2 CL ) zl1 6= zl2
Cette condition peut être réalisée en introduisant une dépendance entre les variables cachées
Zl. Le modèle de mélange gaussien, après introduction des chunklets peut alors être étendu en
un réseau de markov définit par :
– les sommets qui sont soit les variables observées Xi = xi correspondant aux individus soit
les variables cachées Zl indiquant l’étiquette des individus du chunklet Xl correspondant ;
– les arêtes connectant chaque variable cachée Zl à un individu xi du chunklet que celle-ci
représente sont caractérisées par leur fonction potentiel f(xijZl = zl; _) avec e(xi) = zl où
e : X 7! f1::nlg donne l’identifiant de l’étiquette de xi. Un tel identifiant peut être obtenu
à partir des contraintes ML et CL de départ ;
– les arêtes connectant les variables cachées Zl1 et Zl2 entre elles sont caractérisées par leur
fonction potentiel 1 _zl1 ;zl2
où _ est le symbole de Kronecker. Ainsi la valeur de cette
fonction est binaire et maximale lorsque toute paire d’individus tirés parmi deux chunklets
liés et différents, ont une étiquette de groupe différente :
8(xi; xj) 2 Xl1 _ Xl2 ;
l1 6= l2 ) e(xi) 6= e(xj)
_
) _(zl1 ; zl2) = 0
Un tel modèle graphique est représenté en figure 3.2.
Objectif
Le critère objectif à optimiser correspond toujours à la vraisemblance des données X complétée
par Z sous l’hypothèse d’existence des chunklets. Soit Es l’évènement : « Z se conforme aux
3.3. APPROCHES PAR SATISFACTION DES CONTRAINTES 97
Z1 Z3
Z2
x1 x4
x2 x3
FIGURE 3.2 — Réseau de Markov pour le clustering semi-supervisé correspondant aux contraintes
(x2; x3) 2 ML et (x1; x3) 2 CL, (x3; x4) 2 CL. Les individus x2 et x3 doivent appartenir au même
chunklet, traduit par le fait qu’ils partagent la même étiquette donnée par la réalisation de la variable Z2.
Les contraintes CL sont traduites par les liens entre les variables cachées correspondantes aux individus
impliqués dans ces contraintes. Des contraintes (x1; x2) 2 CL et (x2; x4) 2 CL sont implicitement créées.
contraintes », la vraisemblance des paramètres étant donnée le modèle est donné par :
L(_;X;Z;Es) =
1
f(Esj_)
YL
l=1
Y
xi2Xl
_jzlj
zl f(xijZl = e(xi); _) (3.5)
Y
(xi;xj )2CL
(1 _e(xi);e(xj )) (3.6)
et le problème d’optimisation consiste à maximiser la log-vraisemblance des données complétées
:
max
_
QCONSEM(_) = max
_
log L(_;X;Z;Es) (3.7)
Algorithme
L’algorithme permettant de résoudre le problème d’optimisation 19 est complètement basé sur
EM. Il alterne une étape (E) de calcul de l’espérance des variables cachées correspondant aux
chunklets tel qu’elle soit conformes aux contraintes, et une étape (M) d’estimation des meilleurs
paramètres selon les dernières valeurs de probabilité a posteriori.
L’étape E permet de réévaluer les valeurs de probabilité a posteriori zik par :
zik = f(Zi = kjXi = xi;__;Es)
=
_jXlj
k
Ynl
l=1
Y
xi2Xl
f(xijzl = k = e(xi); _k)
Xnk
k0=1
_jXlj
k0
Ynl
l=1
Y
xi2Xl
f(xijzl = k0 = e(xi); _k0)
(3.8)
L’étape M permet de réévaluer les paramètres _ du modèle. Dans le cas de l’approche proposé,
le modèle de mélange est gaussien, ainsi chaque composante du mélange correspond à une
loi normale paramétrée par sa moyenne ck et sa variance _k. celles-ci sont calculés de manière
98 CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES
optimale par :
ck =
X
xi2Xi
xif(Zl = e(xi)jXi = xi;_;Es)
X
xi2Xi
f(Zl = e(xi)jXi = xi;_;Es)
(3.9)
et
_k =
Xnl
l=1
X
xi2Xl
(xi ck)(xi ck)>f(Zl = e(xi)jXi = xi;_;Es)
Xnl
l=1
X
xi2Xl
f(Zl = e(xi)jXi = xi;_;Es)
(3.10)
Algorithme 19 EM contraint
ENTRÉES : X, nk, ML, CL
SORTIES : C = fC1; :::;Cnkg
1: Initialisation aléatoire des nk paramètres des lois f(c1;_1); :::; (cnk ;_nk )g
2: Étape E : Mise à jour des zik en utilisant (3.8)
3: Étape M : Mise à jour des ck et _k en utilisant (3.9) et (3.10)
4: Si QCONSEM change alors aller en 2
5: Ck = fxi 2 Xjzik = max
k02[1::nk]
zik0g 8k 2 [1::nk]
3.4 Approches par objectif pénalisé
3.4.1 PCKM : les K-moyennes contraintes pénalisées
Parmi les premières approches de clustering semi-supervisé autorisant le non respect de
quelques contraintes au profit de l’obtention d’une solution intéressante, [Basu et al., 2004] ont
proposé une variante de KM (1.3.1.1) pour laquelle la solution optimale au sens du critère des
K-moyennes doit pouvoir respecter au mieux les contraintes données.
Objectif
Le problème prend alors la forme d’un critère à optimiser, correspondant au critère de KM :
– pénalisé par un terme modélisant le non respect des contraintes CL;
– récompensé par un terme modélisant le respect des contraintes ML;
Si une contrainte est violée, alors un poids est ajouté au critère à minimiser. Ainsi le problème
d’optimisation est représenté de la manière suivante :
min
c; C
QPCKM(c;C) (3.11)
= min
c; C
1
2
Xnk
k=1
X
xi2Ck
jjxi ckjj22
+
Xnk
k=1
X
(xi;xj )2C2
k
(xi;xj )2CL
wij +
Xnk
k=1
Xnk
k=1
k6=k
X
(xi;xj )2Ck_Ck
(xi;xj )2ML
wij
où les wij sont des paramètres donnés représentant les poids associés aux contraintes. Ils traduisent,
pour chaque contrainte, l’impact de la violation de celle-ci sur le critère objectif de
KM.
3.4. APPROCHES PAR OBJECTIF PÉNALISÉ 99
Algorithme
L’algorithme développé (algorithme 20) pour atteindre un optimum local du critère QPCKM
est semblable à KM. Il alterne une étape d’affectation des individus à leur groupe le plus proche
au sens de l’inertie pénalisée, et une étape de mise à jour des prototypes de ces groupes :
1. la phase d’affectation consiste à construire in extenso les nk groupes par :
C_
k = fxi 2 X j (3.12)
arg min
c2fc1;:::;cnk
g
1
2
jjxi cjj22
+
X
xj2Ck
(xi;xj )2CL
wij +
Xnk
k=1
k6=k
X
xj2Ck
(xi;xj )2ML
wij = ckg
2. la phase de mise à jour des prototypes permet de redéfinir les éléments représentatifs de
ces groupes en recalculant les barycentres :
c_
k =
1
jCkj
X
xi2Ck
xi (3.13)
Cependant pour faciliter la recherche d’une solution satisfaisant au mieux les contraintes,
et ainsi éviter de tomber trop facilement dans des optimums locaux non souhaités, les auteurs
proposent d’adapter la procédure d’initialisation. Ainsi chaque ensemble de contraintes ML et
CL est augmenté le plus possible selon une logique de satisfaction associée aux contraintes. Si
deux individus xi et xj sont liés par une contrainte ML et si xj et xk sont liés par une contrainte
ML, alors xi et xk sont également liés par une contrainte ML :
8(xi; xj ; xk) 2 X3; (3.14)
(xi; xj) 2 ML^ (xj ; xk) 2 ML ) ML = (xi; xk) [ML
Ainsi l’opération de clôture transitive est appliquée au graphe associé aux contraintes ML.
Soit N l’ensemble des n_ composantes connexes du graphe des ML :
N = fN_g_2[1::n_]
et soit N(xi) = fxj 2 N_ j xi 2 N_g alors l’ensemble des contraintes CL est augmenté de telle
sorte que s’il existe une contrainte CL entre xi et xj tels que N(xi) 6= N(xj), alors une contrainte
CL est créée pour toute paire (xk1 ; xk2) 2 N(xi) _ N(xj) :
8(xi; xj ; xk) 2 X3; (3.15)
8xk 2 N(xi); (xi; xj) 2 CL ^ N(xi) 6= N(xj) ) CL = CL [ (xj ; xk)
8xk 2 N(xj); (xi; xj) 2 CL ^ N(xi) 6= N(xj) ) CL = CL [ (xi; xk)
La procédure d’initialisation consiste ensuite à choisir les nk centres initiaux respectant au
mieux les contraintes i.e. tirés parmi les n_ composantes connexes de N :
– si nk _ n_ alors les prototypes initiaux sont choisis parmi les nk composantes connexes les
plus grandes en cardinalité ;
– si nk < n_ alors les prototypes initiaux sont choisis parmi les n_ composantes connexes,
puis ensuite parmi les individus liés par une contrainte CL avec toutes les composantes
connexes de N. Enfin les centres initiaux éventuels restant à initialiser sont tirés aléatoirement.
Discussion
100CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES
Algorithme 20 PCKM
ENTRÉES : X, nk, ML, CL, W
SORTIES : C = fC1; :::;Cnkg
1 : Initialisation des nk centres de groupes fc1; :::; cnkg
2 : Mise à jour des groupes Ck en utilisant (3.12)
3 : Mise à jour des centres de groupe ck en utilisant (3.13)
4 : Si QPCKM change alors aller en 2
L’approche PCKM est une des premières approches exprimée explicitement comme la recherche
d’une solution optimale à un critère objectif où l’intégration des contraintes est réalisée
par une pénalisation de celui-ci. On peut reprocher à l’approche PCKM que les poids wij soient
fixés à l’avance et que leur définition ne soit pas explicite. Or ces poids sont centraux dans la
recherche d’une solution satisfaisant effectivement les contraintes. Une amélioration à envisager
serait de les ré-estimer lors du déroulement de l’algorithme.
3.4.2 SSKM : les K-moyennes semi-supervisées
L’approche SSKM de [Kulis et al., 2005] reprend l’idée de PCKM mais propose un algorithme
interprétable de façon complètement différente de ce dernier. Il s’agit d’une approche
discriminative qui reprend l’objectif de PCKM en y incorporant des modifications mineures.
Objectif
Le problème est posé comme la minimisation du critère d’inertie de KM encore une fois réajusté
par un terme relatif au respect des contraintes ML et CL :
min
c; C
QSSKM(c;C) (3.16)
= min
c; C
Xnk
k=1
X
xi2Ck
jjxi ckjj22
+
Xnk
k=1
X
(xi;xj )2C2
k
(xi;xj )2CL
wij
jCkj
Xnk
k=1
X
(xi;xj )2C2
k
(xi;xj )2ML
wij
jCkj
Le terme d’inertie de KM est cette fois pénalisé par le non respect des contraintes CL, et
récompensé par le respect des contraintes ML.
Algorithme
[Kulis et al., 2005] ont montré que ce critère pouvait se ré-exprimer plus simplement en utilisant
l’astuce du noyau (cf. section 2.4.3). Ainsi minimiser le critère QSSKM revient à minimiser
le critère QKM pour lequel les individus sont projetés par l’application _ inconnue vers un espace
de représentation P muni du produit scalaire Kij = h_(xi); _(xj)i :
QSSKM(c;C) = QKKM(c;C) =
Xnk
k=1
X
xi2Ck
jj_(xi) ckjj22
où Kij = hxi; xji +Wij et W est construit par :
Wij =
_
wij 8(xi; xj) 2 ML
wij 8(xi; xj) 2 CL
3.5. APPROCHES PAR ALTÉRATION DE LA PROXIMITÉ 101
L’algorithme de résolution (Algorithme 22) est alors connu et correspond à un simple KM à
noyau, ou KKM, appliqué sur le noyau K = S + W où S est la matrice des produits scalaires
dans l’espace d’origine (avant projection par _) : Sij = hxi; xji. Il consiste alors, à partir d’une
initialisation de prototypes de groupes tirés parmi les individus, à alterner :
1. l’étape d’affectation des individus à leur groupe le plus proche :
C_
k = fxi 2 Xj arg min
c2fc1;:::;cnk
g
jj_(xi) cjj22
= ckg (3.17)
2. l’étape de mise à jour implicite des prototypes, par un calcul de leurs distances par rapport
aux individus dP (xi; c_
k) = jj_(xi) ckjj22
:
jj_(xi) ckjj22
= Kii 2
X
xj2Ck
Kij
jCkj
+
X
xj2Ck
X
xl2Ck
Kjl
jCkj2 (3.18)
L’algorithme revient donc à appliquer KM sur X où les distances entre individus sont altérées
a priori pour se conformer aux contraintes CL et ML.
Algorithme 21 SSKM
ENTRÉES : X, nk, ML, CL, W
SORTIES : C = fC1; :::;Cnkg
1 : Initialisation des nk centres de groupes fc1; :::; cnkg
2 : Construire le noyau K = S +W
3 : Mise à jour des groupes Ck en utilisant (3.17)
4 : Mise à jour des distances aux centres dP (xi; c_
k) par (3.18)
5 : Si QPCKM change alors aller en 2
Discussion
L’approche SSKM permet de faire le lien entre les approches de clustering semi-supervisé basé
sur la pénalisation et celles basé sur l’altération de la proximité. En effet, les auteurs établissent
que la recherche d’une solution optimale de leur critère pénalisé est obtenable au travers d’un
clustering classique après que les mesures de distance entre les individus aient été redéfinies.
Dans le contexte actuel des recherches pour le clustering semi-supervisé, on regrette l’imposition
de l’algorithme KM, mais cela est nécessaire pour garantir un contrôle complet sur l’optimisation.
3.5 Approches par altération de la proximité
3.5.1 LLMA : adaptation localement linéaire de la métrique
L’approche d’adaptation localement linéaire de la métrique [Chang and Yeung, 2004] vise
à trouver une projection de l’ensemble des individus de X telle que les individus devant être
classés ensembles se retrouvent plus proches dans cet espace de projection. L’originalité de l’approche
réside dans les propriétés de cette projection. En effet, les auteurs proposent de trouver
une projection qui soit :
– localement linéaire, dans le sens où les individus impliqués dans les contraintes ML (de
base ou induites par transitivité) ainsi que les individus proches de ceux-ci sont projetés
linéairement dans un nouvel espace P;
– globalement non linéaire, dans le sens où tous les individus, et en particulier ceux qui ne
sont pas concernés par des contraintes, sont projetés non linéairement dans P.
102CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES
Objectif
La projection _ : Rp 7! Rp est linéaire et définie explicitement sous la forme :
_(xl) = xl +
X
(xi;xj )2ML
K1libi = xl + BK1l (3.19)
où
K1li = e
jjxixljj22
2_2
1 (3.20)
modélise une similarité entre les individus xi et xl. Ainsi plus un individu xl est loin des individus
impliqués dans au moins une contrainte ML moins la projection altère xl, et _(xl) 7! xl.
Le problème prend la forme d’un critère objectif pénalisé pour lequel la solution optimale correspond
aux paramètres de la projection : la matrice B = (b1; : : : ; bnC ). L’objectif est alors de
minimiser la distance entre _(xi) et _(xj) 8(xi; xj) 2 ML tout en préservant les écarts entre xi
et xj 8(xi; xj) =2 ML :
min
B
QLLMA(B) (3.21)
= min
B
X
(xi;xj )2ML
jj_(xi) _(xj)jj22
+ _
X
(xi;xj )2X2
K2ij_ij
où nC correspond au nombre d’individus impliqués dans les contraintes _ij = (jj_(xi)_(xj)jj2
jjxi xj jj2)2 correspond à l’écart entre les distances avant et après projection entre les individus
xi et xj . K2 est une fonction de similarité prédéfinie gaussienne entre les individus xi et xj avant
projection :
K2ij = e
jjxixj jj22
_2
2 (3.22)
La valeur K2ij joue le rôle de poids pour le second terme du critère QLLMA. Ainsi plus deux
individus xi et xj seront proches au sens de la distance euclidienne, plus ils seront similaire au
sens de K2 et plus on privilégiera le fait de conserver cette valeur de distance après projection,
sauf dans le cas où ces individus sont impliqués dans une contrainte ML donnée ou induite.
Algorithme
L’algorithme consiste à alterner différentes étapes afin de déterminer la projection optimale
caractérisée par B_ :
– une mise à jour des paramètres de la mesure de similarité K1 : _1 ;
– une mise à jour des paramètres de la mesure de similarité K2 : _2 ;
– la mise à jour optimale des variables bi ;
– la redéfinition de la position des individus dans l’espace.
Les paramètres des mesures de similarités K1 et K2 sont déterminés de manière heuristique
par :
_1 = _1
Vp
t
; _2 = _2_1 (3.23)
où _1 _ 0, _2 _ 0 sont des constantes données et V correspond à la valeur de distance moyenne
entre individus projetés :
2
n(n 1)
X
(xi;xj )2X2
i<j
jj_(xi) _(xj)jj22
3.5. APPROCHES PAR ALTÉRATION DE LA PROXIMITÉ 103
ainsi plus le nombre d’itérations est élevé, plus le paramètre de variance _1 diminue, entraînant
également une diminution de _2. Au bout du compte les valeurs de similarité correspondantes
K1ij et K2ij tendent vers les valeurs extrêmes 0 ou 1 pour toute paire d’individus (xi; xj) 2 X2.
Étant données de telles valeurs de _1 et _2 et la position courante des individus xi, les paramètres
B de la prochaine transformation sont calculés de manière optimale ou quasi optimale.
Décrire les conditions d’optimalité de la solution B_ = (b_1
; : : : ; b_
nC ) i.e. rBQ = 0 ne permet
pas d’obtenir une forme close de la solution. Cependant, les auteurs proposent d’approximer
une telle solution en maintenant dans l’expression du critère une contrainte _ij = 0. Dans ce
contexte B_ peut être déterminé explicitement par :
B_ = B1B.
2 (3.24)
avec
B1 =
X
(xi;xj )2X2
_
sij + _K2ij(1
jjxi xj jj22
jj_(xi) _(xj)jj22
)
_
: (_(xi) _(xj))(K1:i K1:j )>
_
B2 =
X
(xi;xj )2X2
_
sij + _K2ij(1
jjxi xj jj22
jj_(xi) _(xj)jj22
)
_
: (K1:i K1:j )(K1:i K1:j )>
_
et
sij =
_
1 si (xi; xj) 2 ML
0 sinon
Les auteurs proposent également un autre moyen d’optimiser leur critère sans faire l’hypothèse
restrictive _ij = 0 mais cette seconde procédure, reposant sur un principe de majoration
itérative ne sera pas détaillée davantage.
Algorithme 22 LLMA
ENTRÉES : X, X, nk, ML, W, tf
SORTIES : X0
1 : Réaliser la clôture réflexive et transitive de ML
2 : Initialiser _(xi) = xi 8xi 2 X, t = 1
3 : Mise à jour de _1 et _2 en utilisant (3.23)
4 : Mise à jour de K1 et K2 en utilisant (3.20) et (3.22)
5 : Mise à jour optimale de B par (3.24)
6 : Si t = tf alors t = t + 1 et aller en 3
Discussion
L’approche LLMA est intéressante en ce qui concerne la gestion des contraintes ML. Seuls
les individus impliqués dans de telles contraintes sont effectivement projetés de telle sorte à
être rapprochés. En revanche, l’approche ne permet pas la gestion de contrainte de type CL
ce qui limite son applicabilité dans les contextes plus actuels. De plus l’approche souffre de
quelques artefacts pour garantir l’obtention d’une solution optimale du problème d’optimisation
ainsi qu’une convergence de l’algorithme associé. La décroissance programmée des variances
associées aux gaussiennes K1 et K2 rappellent l’utilisation du paramètre de température dans
les approches de type SOM (cf. section 1.3.2.2).
104CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES
3.6 Approches indépendantes de l’algorithme de clustering
Les approches d’apprentissage de distances ou de similarités peuvent être vus comme des
approches indépendantes de l’algorithme de clustering. L’intégration des contraintes se fait alors
en amont de l’application du clustering. Une distinction est cependant faite dans la mesure où
l’on s’intéresse à l’impact de la mesure de proximité apprise sur la performance de l’algorithme
de clustering employé dans le but de corriger cet apprentissage de proximité pour que celle-ci
soit en adéquation avec :
– les contraintes ML et CL;
– l’amélioration de la performance de A;
– la distribution naturelle des individus dans l’espace, X.
Le principe de fonctionnement de cette famille d’approches initiées par BOOSTCLUSTER
[Liu et al., 2007] est de générer successivement un ensemble d’hypothèses H de clustering selon
différentes mesures de proximité apprises de telle sorte à respecter les contraintes utilisateurs.
A partir de cet ensemble d’hypothèses est construit le clustering C, qui dans ce contexte devra
être de meilleure qualité qu’un clustering obtenu selon les techniques d’intégration simple dans
la proximité.
3.6.1 BC : BoostCluster
L’approche BC [Liu et al., 2007] permet de s’abstraire de l’algorithme de clustering employé
afin de trouver un bon partitionnement respectant les contraintes. Il propose d’intégrer des informations
de semi-supervision de type ML et CL dans n’importe quel algorithme de clustering
A selon des techniques empruntées à l’apprentissage de distances. En particulier, la distance apprise
s’adapte à l’algorithme employé afin que celui-ci satisfasse le mieux possible les contraintes
données.
Objectif
Le principe est d’apprendre une matrice de similarité K de sorte que celle-ci respecte les
contraintes, ainsi :
– (xi; xj) 2 ML doit induire une valeur de Kij élevée ;
– (xi; xj) 2 CL doivent induire une valeur de Kij faible ;
– de plus, l’apprentissage de K doit être validé par l’algorithme de clustering A. Ainsi K
réalise un compromis entre l’intégration optimale des contraintes et la satisfaction de celleci
par A.
Le problème prend alors la forme d’un programme d’optimisation où il s’agit de trouver une
bonne solution au problème :
min
K
QBC = min
K
_ X
(xi;xj )2ML
eKij
__ X
(xi;xj )2CL
eKij
_
(3.25)
La difficulté réside dans le fait qu’il n’est pas possible d’estimer à l’avance la satisfaction
par A (car l’objectif de A n’est pas connu) des contraintes ML et CL étant donnée une valeur
de K. Ainsi cette information ne peut être traduite directement dans l’expression du critère à
optimiser. De plus, la matrice K_ optimale n’est pas unique, son expression est connue et elle ne
correspond pas nécessairement à la meilleure matrice pour l’amélioration de la performance de
A. La matrice K_ optimale est donnée par :
Kij =
8<
:
1 8(xi; xj) 2 ML
0 8(xi; xj) 2 CL
_ij 8(xi; xj) =2 ML[ CL
3.6. APPROCHES INDÉPENDANTES DE L’ALGORITHME DE CLUSTERING 105
où _ij est une valeur arbitraire. Ainsi, l’objectif est d’améliorer le critère QBC en cherchant K tel
que la performance de A soit améliorée au mieux. Ce faisant, K est alors une bonne solution.
Algorithme
L’algorithme proposé (algorithme 23) pour résoudre ce problème d’optimisation consiste à alterner
trois étapes garantissant l’obtention d’unK améliorant son adéquation avec les contraintes
et améliorant la performance de A sur le respect des contraintes. Soit K(0) = 0 la valeur initiale
de la matrice K, le K_ optimal est construit de manière incrémentale à l’issu de la convergence
de la suite (K(t))t2[1::tf ] où K(t) = f(K(t1)). La première étape consiste à proposer une
transformation de X en X_ de sorte que :
– des individus xi et xj tels que (xi; xj) 2 ML soient davantage rapprochés relativement
aux autres paires d’individus, si leur valeur de similarité est faible (cond 1) ;
– des individus xi et xj tels que (xi; xj) 2 CL restent d’autant éloignés que leur valeur de
similarité est forte (cond 2).
Pour cela des poids wij sont calculés tels que :
wij =
8>>>><
>>>>:
eKij
ZML
8(xi; xj) 2 ML
eKij
ZCL
8(xi; xj) 2 CL
(3.26)
où ZML et ZCL sont des facteurs de normalisation. Ainsi, les poids reflètent exactement les
conditions (cond 1) et (cond 2).
Ces poids servent à déterminer un sous espace de projection P_ 2 Rp_s solution du problème
d’optimisation :
max
P
trace(P>X>WXP)
s:t: P>P = Ids
(3.27)
où s est la dimension du sous-espace (fixé à l’avance dans BC) et W est la matrice des poids
définit par Wij = wij .
La nouvelle représentation X_ s’obtient alors en projetant X via P_ où X_ = XP_. L’application
de l’algorithme A sur X_ permet d’observer son comportement face à la nouvelle représentation.
Soit H(t) le clustering produit par A :
H(t)
ij =
_
1 si Link(xi; xj ;A)
0 si Link(xi; xj ;A)
(3.28)
H prend la forme d’une hypothèse car dépendante de la valeur de similarité courante K(t).
Cette hypothèse permet de réévaluer la valeur de similarité K selon la simple équation :
K(t) = K(t1) + _(t)H(t) (3.29)
où _(t) _ 0 quantifie le ratio du nombre de contraintes satisfaites sur le nombre de contraintes
violées :
_(t) =
1
2
log
0
BBBBBBB@
X
(xi;xj )2ML
H(t)
ij =1
jwij j
X
(xi;xj )2ML
H(t)
ij =0
jwij j
_
X
(xi;xj )2CL
H(t)
ij =0
jwij j
X
(xi;xj )2CL
H(t)
ij =1
jwij j
1
CCCCCCCA
(3.30)
106CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES
Le premier terme entre parenthèses correspond à la part (pondérée) de contraintes ML
satisfaites et le second, à la part (pondérée) de contraintes CL satisfaites.
Algorithme 23 BC
ENTRÉES : X, nk, ML, CL
SORTIES : C = fC1; :::;Cnkg
1 : Initialisation de K = 0, t = 0
2 : Calcul de W par (3.26)
3 : Calcul de X_ = XP_ après résolution de (3.27)
4 : Estimation de H(t) en appliquant A sur X_ par (3.28)
5 : Mise à jour de K selon (3.29)
6 : Si K ne converge pas faire t = t + 1 et aller en 2
7 : C = clustering de X par A en utilisant K_
Discussion
L’approche BC permet d’améliorer la performance de n’importe quel algorithme de clustering
A en fournissant à celui-ci une matrice de similarité K adaptée au comportement de A vis à
vis de la satisfaction des contraintes CL et ML. La matrice K est apprise à partir de la génération
d’un ensemble de tf espaces de représentations permettant d’en déduire tf hypothèses de
clustering de X :
K_ =
Xtf
t=1
_(t)H(t) (3.31)
Le nombre d’étape tf de l’algorithme est, selon les auteurs, imposé. Néanmoins, on peut ne
pas fixer ce paramètre et attendre d’observer les erreurs de l’algorithme A sur la satisfaction des
contraintes. En effet, si dans l’expression de _(t) (3.30) la quantité (pondérée) de contraintes
violées exprimée par le dénominateur est plus grande que la quantité de contraintes satisfaites
exprimée par le numérateur, alors l’expression de _(t) est négative et contredit les hypothèses
faites pour la construction itérative de K (3.29).
Un autre point que l’on peut soulever au regard des approches précédentes de clustering
semi-supervisé, est que l’approche échoue par son critère objectif (3.25), à proposer une intégration
de contraintes ML seules ou de CL seules, ce qui peut arriver régulièrement dans des
cas concrets d’application. De plus, lors de la génération de chaque nouvelle représentation,
celle-ci est déterminée uniquement selon les poids wij associés aux individus xi et xj impliqués
dans les contraintes. Autrement dit, les individus qui ne sont impliqués dans aucune contraintes,
ne sont pas considérés lors de la recherche du sous-espace de projection optimal P_ (3.27).
Enfin, on peut s’interroger sur la discontinuité entre (1) les résultats de clusterings intermédiaires
obtenus lors du processus itératif via application de A sur un nouvel espace de représentation,
et (2) le clustering final qui est obtenu, non pas par application sur un nouvel espace,
mais par l’utilisation d’une nouvelle mesure de similarité.
3.7 Contributions
3.7.1 Motivation
Les contributions proposées reprennent les principes des approches indépendantes de l’algorithme
dans la lignée de BC. Le concept est assez similaire dans le sens où les solutions
3.7. CONTRIBUTIONS 107
proposées sont des méta-algorithmes dont l’objectif est d’offrir à chaque étape un sous-espace
de projection permettant à l’algorithme de clustering de respecter au mieux les contraintes ML
et CL. Nous avons vu que l’approche BC se focalise dans l’expression de la fonction objectif
à optimiser, uniquement sur les paires d’individus impliqués dans les contraintes données. Ce
choix offre des avantages, comme la faible complexité et le succès quant à l’obtention d’un sous
espace dans lequel des individus devant être regroupés (resp. séparés) se retrouvent proches
(resp. éloignés). Néanmoins, il est aussi limitant dans le contexte du clustering sous contraintes,
dans la mesure où il ne réalise pas explicitement l’hypothèse que des individus proches d’autres
individus impliqués dans les contraintes devraient se comporter de manière semblable vis à vis
de ces contraintes. Plus formellement :
8(xi; xj) 2 X2; (xi proche de xj ^ (xj ; xl) 2 ML) ) (xi; xl) 2 ML
8(xi; xj) 2 X2; (xi proche de xj ^ (xj ; xl) 2 CL) ) (xi; xl) 2 CL
Cette hypothèse est centrale dans les travaux de [Klein et al., 2002] (cf. section 3.3.2). Ici, on
ne cherche pas explicitement à imposer ces contraintes. En revanche, on aimerait qu’elles soient
naturellement identifiées lors de la détermination du sous-espace de projection des données.
L’hypothèse émise est qu’alors un sous-espace de projection respectant au mieux la représentation
d’origine des données permettra cette identification. En effet si nous pouvons nous assurer
qu’un individu xi proche d’un individu xj impliqué dans une contrainte, dans l’espace d’origine,
reste proche de lui dans le sous-espace de projection, nous réalisons l’hypothèse. Nous identifions
alors deux principes clés que nous chercherons à respecter en vue d’obtenir une nouvelle
représentation favorisant le respect des contraintes par l’algorithme de clustering :
– la cohérence vis à vis de la représentation d’origine des données. La nouvelle représentation
devra être fidèle à la représentation d’origine.
– la consistance sur le respect des contraintes données par l’utilisateur. Dans la nouvelle
représentation, des individus impliqués dans une contrainte ML (resp. CL) devront être
proches (resp. éloignés).
Les deux approches proposées et présentées par la suite diffèrent sur la manière de modéliser
et d’intégrer ces deux principes ainsi que sur la manière d’intégrer l’observation de la
performance de A, vue dans cette famille d’approche comme un évaluateur de la proximité
apprise.
Une approche de type boosting
La première approche que nous proposons reprend un formalisme de type boosting dans un
cadre non supervisé. L’idée du boosting est apparu dans le contexte de l’apprentissage supervisé.
L’objectif est de guider l’entraînement d’un classifieur dit faible car fournissant un ensemble
d’hypothèses assez erronées mais se comportant mieux qu’un classifieur aléatoire, en vue de
l’améliorer. Il s’agit d’un méta-algorithme qui consiste itérativement à apprendre un modèle à
partir des données via le classifieur faible, en tenant compte, pour chaque modèle, des erreurs
commises par le modèle précédent. Cette prise en compte est réalisée au moyen de poids que l’on
associe aux exemples d’apprentissage. L’idée étant qu’un poids fort sera associé à un exemple sur
lequel le classifieur s’est précédemment trompé, et un poids faible est associé aux exemples bien
classés. Ainsi à chaque étape, et via la pondération sur l’ensemble des exemples, un nouveau
modèle est appris, réalisant des erreurs différentes au fur et à mesure des itérations. L’objectif
étant d’obtenir un classifieur de meilleure qualité sur les données d’entraînement, celui-ci
devra tenir compte de chaque classifieur appris à chaque étape du méta-algorithme de boosting.
Le classifieur final est obtenu au moyen d’un vote pondéré par les confiances accordées
108CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES
aux différents classifieurs, confiances relatives aux erreurs réalisées par ceux-ci. L’algorithme
BOC calque le principe du boosting dans le contexte du clustering semi-supervisé. Le principe est
de tenir à jour une distribution des poids sur l’ensemble des paires d’individus impliqués dans
les contraintes (les exemples pondérés sont les paires d’individus). Nous augmentons le poids
associé à une paire d’individus si A ne respecte pas la contrainte (ML ou CL) correspondante
à cette paire d’individus et nous diminuons le poids associé à une paire d’individus impliqués
dans une contrainte satisfaite par A.
Une approche basée sur l’optimisation numérique
La deuxième approche proposée quant à elle, même si elle est extrêmement proche de la
précédente de part l’expression de l’objectif, est sensiblement différente sur la résolution. Nous
choisissons de nous inspirer de l’optimisation numérique pour trouver une solution optimale au
problème posé. Dans cet algorithme l’idée est d’apprendre à chaque étape une nouvelle représentation
des individus meilleure que la précédente dans le sens où A doit parvenir de mieux en
mieux à satisfaire les contraintes données par l’utilisateur. La différence profonde concernant la
résolution est qu’alors via cette approche il n’est pas nécessaire de réaliser un vote consensuel
entre l’ensemble des différentes hypothèses obtenues à chaque étape du méta-algorithme mais
de n’en conserver que les dernières. En ce qui concerne les ressemblances avec la précédente
approche, la construction de la nouvelle représentation des individus est réalisée également à
travers l’utilisation d’une distribution de poids sur l’ensemble des paires d’individus impliqués
dans les contraintes. En revanche les poids ne sont pas mis à jour à la manière du boosting mais
sont estimés de manière adaptée et par optimisation, pour satisfaire le principe de consistance.
De plus, ils servent à pénaliser un objectif visant à satisfaire le principe de cohérence qui lui doit
être optimisé. Le concept général de ces deux approches est schématisé dans la figure 3.3.
ML, CL
X
A H
C
H stable
W X'
FIGURE 3.3 — Schéma général du déroulement des méta-algorithmes pour le clustering semi-supervisé.
W désigne la matrice des poids, et X0 la représentation optimale obtenue à partir du calcul du sousespace
P_ optimal.
Les algorithmes proposés reposent sur l’optimisation d’un critère objectif. Ce critère doit
intégrer la volonté de satisfaire simultanément les deux principes que sont la cohérence et la
consistance. La solution optimale pour ce critère objectif doit alors correspondre à un sousespace
réalisant, après projection de l’ensemble des individus dans celui-ci, un compromis entre :
– le respect de la représentation d’origine d’une part ;
– l’adéquation avec les contraintes utilisateurs d’autre part.
3.7. CONTRIBUTIONS 109
Le respect de la représentation d’origine : la cohérence
En ce qui concerne le premier point, les deux approches proposées reposent sur la même
technique bien connue et éprouvée par les communautés issues de la Statistique et de l’Analyse
de Données : l’analyse en composante principale ou ACP. L’idée de cet outil est d’offrir un moyen
de représenter de manière optimale un ensemble d’individus décrits dans un espace vectoriel de
dimension p, dans un sous-espace vectoriel de dimension s < p. La nouvelle représentation est
optimale dans le sens ou elle préserve le maximum d’information présente dans la représentation
d’origine. L’information préservée est la variance du nuage des individus, ce qui correspond
à la dispersion de l’ensemble des individus relativement à leur centre de gravité. Dans la suite
de ce chapitre, la métrique d correspondra à la métrique euclidienne jj:jj2. Si on considère l’ensemble
d’individu centré, où le nuage est translaté de sorte que le centre de gravité coincide
avec l’origine du repère (0), le critère se formalise de la façon suivante :
QCOH(P) =
X
(xi;xj )2X2
d2
P (xi; xj) = 2n
X
xi2X
d2
P (0; xi) (3.32)
et le problème d’optimisation associé à la recherche de cohérence est alors :
max
P
X
(xi;xj )2X2
d2
P (xi; xj)
Le choix de l’ACP comme moyen d’obtenir un nouvel espace de représentation cohérent avec
la représentation d’origine se justifie pleinement par l’optimalité de la solution puisqu’elle offre
intuitivement un sous-espace dans lequel la distribution des individus projetés est la plus proche
possible de la distribution des individus dans l’espace d’origine. Le respect de la représentation
d’origine correspond au principe de cohérence.
Le respect des connaissances : la consistance
Le problème est maintenant de modéliser la volonté de respecter les connaissances représentées
par les contraintes ML et CL. L’intégration proposée se fonde sur les approches de
type PCKM et SSKM. Plutôt que de pénaliser le critère objectif d’un algorithme de clustering
particulier à l’image des approches précédentes (QKM), nous pénalisons le critère QCOH par un
terme pénalisant devant traduire le non respect des connaissances. La performance de A sur la
satisfaction de ces contraintes n’étant pas prédictible, une expression analytique ne peut être
écrite pour constituer un tel terme pénalisant. La modélisation proposée doit donc se fonder sur
des hypothèses qui elles peuvent être traduites analytiquement, et qui, si elles sont vérifiées,
devraient permettre d’atteindre l’objectif initial :
– si (xi; xj) 2 ML, alors plus les individus sont proches dans la nouvelle représentation,
plus A aura de chance de satisfaire la contrainte ML;
– si (xi; xj) 2 CL, alors plus les individus sont éloignés dans la nouvelle représentation, plus
A aura de chance de satisfaire la contrainte CL.
C’est sur ce point, l’intégration de l’objectif de la recherche de consistance, que les différentes
contributions proposées diffèrent.
3.7.2 BOC : boosting de clustering
L’approche BOC suggère d’associer un critère objectif modélisant la recherche de consistance.
Le critère proposé est le suivant :
QCST(P) =
X
(xi;xj )2CL
wijd2
P (xi; xj)
X
(xi;xj )2ML
wijd2
P (xi; xj) (3.33)
110CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES
De part ce critère à maximiser selon P 2 Rp_s et s < p, paramétré notamment par les poids
wij > 0, il est possible de réaliser les hypothèses précédentes. Ainsi :
– si (xi; xj) 2 CL, alors plus wij est grand, plus la distance dans l’espace de projection
d2
P (xi; xj) devra être élevée.
– si (xi; xj) 2 ML, alors plus wij est grand, plus la distance dans l’espace de projection
d2
P (xi; xj) devra être faible.
Les poids wij constituent alors un moyen de réaliser l’hypothèse en forçant la recherche
d’une topologie en adéquation avec les contraintes ML et CL.
Objectif
L’objectif global de l’approche est d’apprendre de manière itérative un ensemble de représentations
de X en observant la performance de A sur la satisfaction des contraintes ML et CL,
permettant ainsi à A de produire un ensemble H d’hypothèses de clustering. Cet objectif ne peut
être formalisé tel quel, dû à l’absence de connaissances sur A. L’idée est alors de proposer un
formalisme :
– adapté pour permettre la recherche d’une représentation optimale X_ ;
– paramétré pour pouvoir intégrer un encodage de la performance de A.
Le critère proposé prend alors la forme d’un compromis :
QBOC(P) =
1 _
n2 QCOH(P) +
_
m
QCST(P)
= QCOH(P) + reg1(_)QCST(P)
=
X
(xi;xj )2X2
d2
P (xi; xj)
+ reg1(_)
_ X
(xi;xj )2CL
wijd2
P (xi; xj)
X
(xi;xj )2ML
wijd2
P (xi; xj)
_
où reg1(_) permet de moduler entre la recherche de cohérence ou de consistance :
reg1(_) =
n2_
(1 _)m
avec _ 2 [0::1] un paramètre associé à la pondération de chaque terme. Les facteurs n2 et
m = jML [ CLj permettent d’avoir des ordres de grandeurs comparables entre les termes de
cohérence et de consistance.
Le problème d’optimisation consiste alors à maximiser la variance des individus projetés en
respectant la consistance sur les contraintes CL et ML données :
max
P
QBOC(P)
s:t: P>P = Ids
(3.34)
où les poids w permettent d’intégrer la performance de A, liant ainsi l’apprentissage de P_
à l’algorithme de clustering A. Avant de représenter plus en détail la résolution du problème
d’optimisation, il est utile de rappeler quelques résultats notamment autour de l’ACP.
3.7. CONTRIBUTIONS 111
ACP. Soit X 2 Rn_p la représentation matricielle de X centrée, la matrice X>X 2 Rp_p représente
la matrice de corrélations (ou covariances, selon la procédure de normalisation appliquée
aux données) empirique entre les variables descriptives, attributs ou propriétés.
La variance dans l’espace d’origine est définie (dans le cas où les données sont centrées et
réduites) par :
V ariance(X) =
1
n
trace(X>X)
Ainsi, soit X0 = XP une nouvelle représentation de X, la variance des individus dans l’espace
de projection, qui correspond exactement à l’expression optimale du critère QACP devient :
V ariance(X0) =
1
n
trace(X0>X0) =
1
n
trace((XP)>XP) =
1
n
trace(P>X>XP)
Ainsi, on peut remarquer que
max
P
V ariance(X0) _ max
P
trace(P>X>XP)
Dans ce contexte, on peut poser :
QACP(P) = trace(P>X>XP)
L’intérêt de présenter le critère de l’ACP sous cette forme réside dans la résolution du problème
d’optimisation. Soit X_ = XP_, l’obtention de la représentation optimale passe par la
recherche de la matrice de projection optimale P_ solution du problème :
max
P
QACP(P)
s:t: P>P = Ids
(3.35)
où la contrainte P>P = Ids est là pour garantir l’orthonormalité de P_ assurant Jrang(X_) = sK.
Ceci permet de garantir une indépendance entre les s nouveaux descripteurs caractérisant X au
travers de X_.
La résolution de ce problème d’optimisation convexe est un résultat bien connu de l’algèbre
linéaire, les s colonnes de P_ sont les s vecteurs propres associés aux s plus grandes valeurs
propres de la matrice des corrélations/covariances X>X.
Algorithme
Dans BOC, le problème global d’obtention du clustering optimal C_ découle ainsi d’un processus
itératif comprenant :
1. la résolution du problème d’apprentissage de X_ ;
2. l’adaptation des poids par mesure du respect de la consistance de A sur X_.
L’algorithme employé pour résoudre le premier problème (3.34) suit le principe de résolution
de l’ACP. En effet le critère (à maximiser) QBOC associé à la recherche de X_ par l’intermédiaire
de P_ peut être réécrit :
QBOC(P) =
X
xi2X
d2
P (0; xi) reg2(_)
X
(xi;xj )2ML[CL
Wijd2
P (xi; xj) (3.36)
112CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES
où reg2(_) = 1
2nreg1(_) et avec :
Wij =
8<
:
wij 8(xi; xj) 2 CL
wij 8(xi; xj) 2 ML
(3.37)
Soit X 2 Rn_p la représentation matricielle des données, et soient
– [ML[CL] une représentation tabulaire indicée par l de l’ensemble ML[CL. [ML[CL]l
est le l-ième couple (xi; xj) 2 ML[ CL correspondant à une contrainte à satisfaire ;
– Y +; Y 2 Rm_p, les matrices telles que :
Y +
l: = (reg2(_)jWij j)
1
2 (xi xj) avec (xi; xj) = [ML[ CL]l
Y
l: = sign(Wij)(reg2(_)jWij j)
1
2 (xi xj) avec (xi; xj) = [ML[ CL]l
Y +
l: et Y
l: correspondent respectivement aux l-ièmes lignes des matrices Y + et Y représentant
la différence régularisée entre les vecteurs xi et xj tels que le couple (xi; xj) constitue la
l-ième contrainte (ML ou CL).
Soient Y +0 = Y +P et Y 0 = Y P, le critère QBOC peut alors être réécrit sous forme matricielle
par :
QBOC(P) = trace(X0>X0) trace(Y +0>
Y 0
)
= trace(P>X>XP) trace(P>Y +>
Y P)
= trace(P(X>X Y +>
Y )P>)
Le problème d’optimisation (3.34) se résout alors comme dans le cadre de l’ACP en diagonalisant
la matrice M = X>X Y +>Y . Le sous-espace optimal P_ correspond alors aux s
vecteurs propres associées aux s valeurs propres les plus grandes de cette matrice. L’algorithme
A est ensuite appliqué sur X_ de sorte à proposer une hypothèse de clustering H définie sur
toutes les paires d’individus :
Hij =
_
1 si Link(xi; xj ;A)
1 si Link(xi; xj ;A)
(3.38)
où par défaut, Hii = 1.
Le second problème à résoudre est l’intégration de la performance de A sur X_. Celle-ci
est réalisée en modifiant la distribution des poids w, modifiant ainsi les paramètres du premier
problème pour une résolution ultérieure. Les poids sont ré-estimées de manière heuristique en
suivant les principes du boosting, dans le sens où si A ne parvient pas à regrouper xi et xj tel
que (xi; xj) 2 ML (respectivement (xi; xj) 2 CL) alors les poids wij du couple correspondant
(xi; xj) doivent croître (respectivement décroître). Cette adaptation doit inciter A à s’améliorer
sur le clustering concernant ces paires d’individus, en lui proposant une représentation X_ adéquat.
Dans un premier temps, l’erreur _ de A est calculée comme la proportion de contraintes
ML et CL violées :
_ =
m
m
(3.39)
où m est le nombre de contraintes non satisfaites par A.
À partir de cette erreur, une confiance _ est alors associée au clustering produit par A :
_ =
1
2
ln
_
1 _
_
_
(3.40)
3.7. CONTRIBUTIONS 113
Soit la matrice E correspondant aux hypothèses attendues, définie par :
Eij =
8<
:
1 8(xi; xj) 2 ML
1 8(xi; xj) 2 CL
0 8(xi; xj) 2 X n (ML[ CL)
Les poids sont finalement mis à jour de façon à respecter le principe de boosting :
w_
ij = wij
e_ijEijHij
Z
8(xi; xj) 2 ML[ CL (3.41)
où Z est un facteur de normalisation. Les poids sont alors augmentés si Eij 6= Hij ce qui correspond
à une erreur de clustering par A vis-à-vis des contraintes données.
On remarque qu’une erreur _ _ 1
2 implique une confiance _ _ 0 causant alors un échec vis à
vis de l’objectif visé. L’algorithme de clustering n’est alors plus capable de satisfaire globalement
les contraintes ML et CL. On dit dans ce contexte que A ne remplit plus la condition d’être
un classifieur non supervisé faible, et qu’il n’est plus raisonnable de le booster. Dans ce cas
l’algorithme BOC s’arrête et une synthèse des différentes hypothèses obtenues est réalisée par
un vote à la majorité, pour donner le clustering final des individus C.
Algorithme 24 BOC
ENTRÉES : X, nk, ML, CL, tf , A
SORTIES : C = fC1; :::;Cnkg, X_, P_
1 : Initialisation des wij = 1
m 8(xi; xj) 2 ML[ CL et t = 0
2 : Calculer P_ en résolvant (3.34) et déterminer X_ = PX
3 : Appliquer A sur X_
4 : Mesurer _ par (3.39) et _ par (3.40)
5 : Mise à jour de w par (3.41)
6 : Si t < tf ou _ < 1
2 alors aller en 2
7 : T = min (t; tf )
8 : C = V ote(fH(t)g1_t_T )
Construction de la partition finale
Le vote à la majorité permettant d’obtenir C, à partir de l’ensemble fH(t)g1_t_T des hypothèses
de clustering sur les paires d’individus, peut être réalisé de différentes façons :
1. Selon le boosting, l’hypothèse finale, ici C, peut être construite à partir d’une combinaison
linéaire H_ des différentes hypothèses apprises au cours du méta-algorithme. H_ est alors
défini par :
H_
ij =
XT
t=1
_(t)H(t)
Une matrice C de clustering peut alors être construite en observant la signature de la
matrice H :
Cij =
_
1 si H_
ij > 0
0 si H_
ij < 0
(3.42)
Néanmoins il n’est pas garantit que la matrice C ainsi définit corresponde effectivement
à un clustering. Si l’on interprète C tel un graphe, une approche par partitionnement de
graphe (comme SC) peut être employée pour couper un nombre minimum d’arêtes afin de
114CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES
constituer nk composantes connexes, puis une complétion en clique de ces composantes
connexes nous permet d’obtenir une matrice C composée de nk blocs de 1, correspondant
davantage à un clustering. Une autre façon de procéder serait de considérer H_ comme
une matrice de similarité et de l’utiliser comme telle si A est applicable sur une matrice
similarité, ou d’en dériver une distance en considérant H_ comme une matrice de produit
scalaire, et ensuite appliquer A en considérant cette distance.
2. Selon le même genre de principe de vote, mais en utilisant les divers paramètres appris
lors de l’algorithme, il est possible d’estimer de nouveaux poids ~ w reflétant les différentes
étapes du boosting.
~ wij =
XT
t=1
_(t)w(t)
ij
Les poids ~ w correspondent à une moyenne pondérée des poids utilisées lors de la génération
successive des différentes représentation optimales. Ces poids permettent alors de
résoudre (3.34) (où w = ~ w) afin de trouver une nouvelle représentation X_ sur laquelle
appliquer A pour déterminer C.
3. Une troisième piste envisagée pour produire C par un consensus entre les différents résultats
de chaque étape du processus de boosting est de directement concaténer les différentes
représentations des individus en pondérant chacune d’elle par l’efficacité qu’elle apporte
en terme de clustering. Ce qui nous intéresse étant la distance entre les individus, ce type
de fusion revient à réaliser une moyenne pondérée par _ des distances entre individus
décrits par les représentations optimales respectives :
d2(xi; xj) =
XT
t=1
_(t)(xi xj)>P(t)>
P(t)(xi xj)
L’algorithme A est alors appliqué en utilisant d comme mesure de distance. Pour les algorithmes
se fondant sur une mesure de similarité, un noyau peut être appris de manière
similaire.
Discussion
L’approche proposée est très proche dans l’esprit de BC mais diverge sur plusieurs aspects.
Tout d’abord, les deux approches se proposent de booster l’algorithme A en intégrant une mesure
de la performance de A pour le calcul d’un espace de représentation optimal X_. L’objectif de
la discussion suivante est de traiter les similitudes et les différences entre ces deux approches.
Dans un premier temps, l’intégration de la performance de A est traitée, puis dans un second
temps, les détails du calcul du sous espace optimal sont développés.
Intégration de la performance de A
L’intégration de la performance de A est réalisée par l’intermédiaire des poids w. Ces poids
sont mis à jour de façon différentes dans les deux approches. Dans BC, les poids w (noté brièvement
wBC) sont normalisés indépendamment selon le type de contraintesMLou CL, alors qu’ils
sont normalisés relativement à l’ensemble des contraintes dans le cas de BOC (wBOC). En particulier,
soit WBC et WBOC les matrices des poids correspondants aux approches, l’initialisation est
différente :
WBCij =
8>><
>>:
1
m+
8(xi; xj) 2 ML
1
m 8(xi; xj) 2 CL
(3.43)
3.7. CONTRIBUTIONS 115
WBOCij =
8>><
>>:
1
m
8(xi; xj) 2 ML
1
m
8(xi; xj) 2 CL
(3.44)
Soit la mise à jour des poids de BC (3.26) :
W(t)
BCij =
8>>>>><
>>>>>:
eK(t)
ij
ZML
8(xi; xj) 2 ML
eK(t)
ij
ZCL
8(xi; xj) 2 CL
(3.45)
Si on utilise le fait que K est construite durant le processus itératif par l’équation :
K(t) = K(t1) + _(t)H(t)
alors le calcul des poids se réécrit :
W(t)
BCij =
8>>>>><
>>>>>:
eK(t1)
ij _(t)H(t)
ij
ZML
= W(t1)
BCij
e_(t)H(t)
ij
ZML
8(xi; xj) 2 ML
eK(t1)
ij +_(t)H(t)
ij
ZCL
= W(t1)
BCij
e_(t)H(t)
ij
ZML
8(xi; xj) 2 CL
(3.46)
Sous cette forme la mise à jour des poids de BC est très similaire à celle de BOC, dans la
mesure où les hypothèses Hij sont à valeurs dans f0; 1g pour BC et dans f1; 1g pour BOC. En
particulier :
– Pour une contrainte ML non violée, i.e. (xi; xj) 2 ML et Hij = 1, le poids associé WBCij
diminue, ce qui entraîne par la normalisation, une augmentation de la valeur des poids
associés aux contraintes ML respectées.
– Pour une contrainte CL violée, i.e. (xi; xj) 2 CL et Hij = 1, le poids associé WBCij augmente
directement (dans les négatifs, car WBCij < 0 8(xi; xj) 2 CL), entraînant par la
normalisation, une diminution de la valeur des poids associés aux contraintes CL respectées.
Seule diffère l’expression de la confiance _(t) (équation (3.30) dans BC et (3.40)), mais elle
reste dans les deux cas une mesure relative à l’erreur de A dans la satisfaction des contraintes
CL et ML. Cette erreur est explicite dans BOC mais non dans BC.
Calcul de la représentation optimale X_
Le second point important des approches BC et BOC est la génération d’une nouvelle représentation
consciente des lacunes de A sur le respect des contraintes. Cette nouvelle représentation
vise à améliorer globalement les performances de A. Les deux approches visent à diagonaliser
une matrice de corrélations mais c’est sur le calcul de cette corrélation qu’elle diffère : X>WBCX
pour BC, et X>X Y +>Y pour BOC. Les critères objectifs associés aux recherche des sousespaces
de projections optimaux respectifs sont :
pour BC : trace(P>X>WBCXP)
pour BOC : trace(P>(X>X Y +>
Y )P)
116CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES
Soit X0 = XP et hxi; xjiP le produit scalaire entre xi et xj projetés dans P. Le critère QBC
peut être réécrit pour dégager une similitude forte avec la recherche de consistance réalisée par
BOC :
QBC(P) = trace(P>X>WBCXP)
= trace(X0>WBCX)
=
X
(xi;xj )2X2
WBCijhxi; xjiP
=
1
2
X
(xi;xj )2X2
WBCij(hxi; xiiP + hxj ; xjiP d2
P (xi; xj))
Ce critère est équivalent en maximisation à :
QBC(P) =
X
(xi;xj )2X2
WBCij(hxi; xiiP + hxj ; xjiP d2
P (xi; xj))
=
X
(xi;xj )2X2
WBCij(hxi; xiiP + hxj ; xjiP )
X
(xi;xj )2X2
WBCijd2
P (xi; xj)
Comme QCST(P) =
X
(xi;xj )2X2
WBOCijd2
P (xi; xj) et après l’analogie constatée entre WBC et
WBOC, on peut réécrire :
QBC(P) _
X
(xi;xj )2X2
WBCij(hxi; xiiP + hxj ; xjiP ) + QCST(P)
De cette façon, on peut rapprocher les deux objectifs en constatant :
max
P
QBC(P) _ max
P
QCST(P)
Il reste alors l’expression :
X
(xi;xj )2X2
WBCij(hxi; xiiP + hxj ; xjiP ) =
X
(xi;xj )2X2
WBCij(jjxiPjj22
+ jjxjPjj22
)
qui reste difficile à interpréter. En particulier, comme :
X
(xi;xj )2X2
WBCij(jjxiPjj22
+ jjxjPjj22
)
=
X
(xi;xj )2ML
wBCij(jjxiPjj22
+ jjxjPjj22
) +
X
(xi;xj )2CL
wBCij(jjxiPjj22
+ jjxjPjj22
)
alors plus le poids associé à une contrainte ML augmentera (wBC > 0), plus P sera tel que les
normes des individus impliqués dans ces contraintes soient préservées dans la nouvelle représentation.
Plus le poids associé à une contrainte CL augmentera dans les négatifs (wBC < 0),
plus P sera tel que la somme des normes des individus impliqués dans ces contraintes soient
minimisée, ce qui intuitivement revient à les rapprocher et est contradictoire avec l’objectif.
L’approche proposée permet à l’image de BC, de calculer une représentation X_ à chaque
étape, optimale pour des valeurs de poids fixés. BOC propose différentes façons de produire
une hypothèse finale H_ interprétable comme un clustering des données C, et celles-ci seront
discutés dans la section des expérimentations. Cependant le facteur limitant de la contribution
BOC est le problème de la convergence et l’arbitraire de l’intégration de la performance de A.
Dans la perspective de palier à ce problème, les approches UZABOC et ADAUZABOC, fondées
sur des techniques d’optimisation numérique, ont été développées et éprouvées empiriquement.
Leurs descriptions détaillées font l’objet de la prochaine section.
3.7. CONTRIBUTIONS 117
3.7.3 UZABOC et ADAUZABOC : boosting simple et adaptatif de clustering par
optimisation
Le critère de l’ACP utilisé par BOC est indépendant de l’intégration de la performance de A.
De ce fait, UZABOC se fonde sur le même critère pour modéliser la cohérence. En revanche, l’approche
suggère d’intégrer la mesure de performance de A par l’intermédiaire de contraintes au
problème d’optimisation posé simplement par la recherche de cohénrece. Ainsi, en conservant
l’hypothèse de BOC i.e. la volonté de rapprocher des individus impliqués dans une contrainte
ML et de tenir éloignés des individus impliqués dans une contrainte CL, les hypothèses suivantes
sont émises :
– si (xi; xj) 2 ML alors il existe une constante _ij _ 0 la plus grande possible telle que _ij
borne supérieurement la distance entre xi et xj dans le sous-espace :
(xi; xj) 2 ML ) 9_ij _ 0; d2
P (xi; xj) _ _ij
– si (xi; xj) 2 CL alors il existe une constante _ij _ 0 la plus petite possible telle que _ij
borne inférieurement la distance entre xi et xj dans le sous-espace :
(xi; xj) 2 CL ) 9_ij _ 0; d2
P (xi; xj) _ _ij
Objectif
L’intégration de ces hypothèses comme contraintes au problème de recherche de cohérence
permet de formuler le problème d’optimisation suivant :
max
P
QCOH(P) = max
P
trace(P>X>XP)
s:t: P>P = Ids
d2
P (xi; xj) _ _ij 8(xi; xj) 2 ML (cs1)
d2
P (xi; xj) _ _ij 8(xi; xj) 2 CL (cs2)
(3.47)
Chaque contrainte ML ou CL est associée à une contrainte d’optimisation (cs1) ou (cs2).
Résoudre ce problème pour obtenir une représentation optimale P_ tel qu’il est posé ne permet
à aucun moment d’intégrer le retour de A sur la génération de X_. L’idée pour résoudre ce
problème est de se servir de _ pour rendre compte de la performance de A. Si A appliqué à
X_ = XP_ ne parvient pas à satisfaire les contraintes ML et CL alors que les contraintes
d’optimisation (cs1) et (cs2) sont satisfaites, ces dernières ne sont pas suffisamment adaptées.
Dans ce cas, la solution P_ n’est pas adaptée, et les bornes _ij correspondantes doivent être
réévaluées afin de restreindre l’espace des solutions réalisables. Cela permet, à la suite d’une
nouvelle optimisation, d’améliorer les chances d’obtenir un optimum P_ adapté aux contraintes.
Algorithme
L’algorithme développé (dont la trame est exposée figure 3.4) pour résoudre le problème de
la recherche de la représentation permettant le respect au mieux des contraintes ML et CL par
A, se décline en différents sous problèmes :
– la recherche d’une représentation optimale par résolution de (3.47) ;
– l’intégration du retour de A pour tendre vers une adéquation entre l’algorithme de clustering
et la représentation optimale.
En supposant connues les valeurs de _ pour toutes les contraintes, le problème (3.47) peut
être résolu grâce à l’optimisation lagrangienne. La contrainte d’optimisation JP>P = IdsK peut
être décomposée en s contraintes d’optimisation, en constatant à la fois :
118CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES
ML, CL
X
A H
C
H stable
ξ
X'
W
P
FIGURE 3.4 — Schéma du déroulement d’UZABOC.
– P>P = Ids , (P>P)2 = Ids ;
– (P>P)>
:i (P>P):i = 1 , P>P = Ids.
Le lagrangien associé L(P;w; _) est donné par la formule :
L(P;w; _) (3.48)
= trace(P>X>XP) _> diag((PTP)2 Ids)
X
(xi;xj )2ML
wij
d2
P (xi; xj) _ij
_
+
X
(xi;xj )2CL
wij
d2
P (xi; xj) _ij
_
où diag(M) est le vecteur constitué des éléments diagonaux de M.
w = fwijgi2[1::n]
j2[1::n]
et _> = (_1; : : : ; _s) représentent les multiplicateurs de lagrange. En particulier,
les multiplicateurs de lagrange w sont analogues aux poids w du critère de BOC : QBOC. En
posant W telle que :
Wij =
_
wij 8(xi; xj) 2 CL
wij 8(xi; xj) 2 ML
(3.49)
En reprennant la notation de BOC (X 2 Rn_p la matrice des données,et [ML [ CL] la
représentation tabulaire indicée par l de l’ensemble ML[ CL) et en réintroduisant les matrices
Y + 2 Rm_p et Y 2 Rm_p les matrices telles que :
Y +
l: = jWij j
1
2 (xi xj) si (xi; xj) = [ML[ CL]l
Y
l: = sign(Wij)jWij j
1
2 (xi xj) si (xi; xj) = [ML[ CL]l
Y +
l: et Y
l: correspondent respectivement aux l-ièmes lignes des matrices Y + et Y représentant
la différence pondérée entre les vecteurs xi et xj tels que le couple (xi; xj) constitue la
l-ième contrainte (ML ou CL).
Le lagrangien peut être reformulé :
L(P;w; _) (3.50)
= trace(P>(X>X Y +>
Y )P) _> diag((PTP)2 Ids)
X
(xi;xj )2ML
Wij_ij
X
(xi;xj )2CL
Wij_ij
3.7. CONTRIBUTIONS 119
Si P_ est un optimum de 3.47, alors il existe un unique couple (w_; __) tel que P_, W_ et __
satisfont les conditions du premier ordre (CPO) suivantes:
8>><
>>:
rP_
i
L(P_;w_; __) = 0 (cond 1)
@L(P_;w_; __)
@w_
ij
= 0 (cond 2)
r__L(P_;w_; __) = 0 (cond 3)
Les différentes dérivées partielles dans (cond 1), (cond 2) et (cond 3) mènent respectivement
aux expressions:
rP_
i
L(P_;w_; __) = 2(X>X Y +>
Y )(P_
:i) 2_iP_>P_(P_
:i)
@L(P_;w_; __)
@w_
ij
=
_
_ij d2
P_(xi; xj) 8(xi; xj) 2 ML
d2
P_(xi; xj) _ij 8(xi; xj) 2 CL
r__L(P_;w_; __) = P_>P_ Ids
Si on étudie alors les différentes conditions du premier ordre, on remarque que :
– Sous réserve de connaître les valeurs des multiplicateurs de lagrange w (et en utilisant
(cond 3)), la satisfaction de (cond 1) traduit le fait que P_ correspond exactement à la
solution optimale de l’ACP où la matrice de corrélation correspondante aux données à
approximer est la matrice M = X>X Y +>Y . La matrice de rang s approximant le
mieux cette matrice corrélation s’obtient par diagonalisation et sélection des s vecteurs
propres de M correspondants aux s valeurs propres les plus grandes.
– une expression sous forme close de w_
ij ne peut être déterminée analytiquement pour
garantir la satisfaction de (cond 2) car 8(xi; xj) 2 ML[ CL, d2
P_(xi; xj) dépend de W_
ij .
Ces observations suggèrent une procédure algorithmique afin d’isoler les recherches de P_
et de w_. L’idée est de proposer un moyen d’approcher de manière itérative, au travers d’une
suite les multiplicateurs de lagrange w_ optimaux, et P_, par observation respectivement d’un
sous espace P courant et de multiplicateurs w courants. étant donnés l’observation d’un sousespace
de projection P fixé. L’approche UZABOC se fonde alors sur l’algorithme d’Uzawa adapté
à l’optimisation numérique d’un critère objectif sous contraintes pour lesquels les multiplicateurs
de lagrange ne peuvent être déterminés par une expression close. L’algorithme d’Uzawa propose
de construire une suite (W(t))t convergente vers W_. À chaque valeur W(t) connue, un sous
espace optimal P(t) est obtenu directement par diagonalisation.
Calcul de la nouvelle représentation X_. Le calcul de la nouvelle représentation optimale
X_ est réalisé par une projection linéaire de X sur P_ :
X_ = XP_
où P_ est obtenu comme la limite de la suite (P(t))t issue de la résolution itérative (par Uzawa)
du système émanant des conditions KKT, permettant d’obtenir également les multiplicateurs
optimaux w_. Partant d’une initialisation nulle des multiplicateurs w = 0, la mise à jour de P,
pour w fixé, est déterminée par :
P(t) = arg max
P
trace(P>(X>X Y +>
Y )P)
s:t: P>P = Ids
(3.51)
120CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES
Les multiplicateurs de lagrange w sont eux, mis à jour par :
w(t)
ij =
(
max
0;w(t1)
ij + _ _ (d2
P(t)(xi; xj) _ij)
_
8(xi; xj) 2 ML
max
0;w(t1)
ij + _ _ (_ij d2
P(t)(xi; xj))
_
8(xi; xj) 2 CL
(3.52)
où _ est un pas d’optimisation fixé à l’avance, et paramétrable mais constant, dans le cas de
l’application d’Uzawa.
Intégration de la performance de A. Une fois le couple optimal (P_;w_) approché par
Uzawa, la représentation optimale X_ est calculée et A est appliqué sur X_. En cas d’erreurs
sur la satisfaction des contraintes ML et CL par A un nouvel espace de représentation doit
être déterminé. La règle de mise à jour (3.52) donne une indication sur le moyen de contrôler
les mises à jour de w pour corriger la recherche d’un nouvel X_ (par la recherche d’un
nouveau couple (P_;w_)) permettant à A de mieux satisfaire les contraintes ML et CL. Ainsi,
UZABOC propose d’influer directement sur les bornes _ij des contraintes d’optimisation (cs1) et
(cs2).
Soit H la matrice des hypothèses de clusterings issues de l’application de A sur X_ :
Hij =
_
1 si Link(xi; xj ;A)
1 si Link(xi; xj ;A)
(3.53)
Deux cas peuvent se produire pour chacun des types de contraintes ML et CL lorsqu’elles
ne sont pas satisfaites :
– Soit (xi; xj) 2 ML et Link(xi; xj ;A) (la contrainte ML n’est pas respectée) :
– si la contrainte (cs1) n’est pas satisfaite, alors les multiplicateurs de lagrange augmentent
naturellement, imposant ainsi un poids plus fort sur le couple (xi; xj) lors de
la recherche de la prochaine représentation optimale ;
– si la contrainte (cs1) est satisfaite, alors les multiplicateurs de lagrange devraient naturellement
diminuer, or l’objectif étant de le faire augmenter car la contrainte ML
associée est violée. Nous proposons d’exercer un contrôle en durcissant la contrainte
d’optimisation (cs1), en diminuant la valeur de _ij . Ainsi la diminution naturelle des
poids est amortie et la difficulté de satisfaire la contrainte d’optimisation (cs1) ultérieurement
est accrue.
– Soit (xi; xj) 2 CL et Link(xi; xj ;A) (la contrainte CL n’est pas respectée) :
– si la contrainte (cs2) n’est pas satisfaite, alors les multiplicateurs de lagrange augmentent
naturellement, imposant ainsi un poids plus fort sur (xi; xj) lors de la recherche
de la prochaine représentation optimale ;
– si la contrainte (cs2) est satisfaite, alors pour amortir la diminution naturelle des multiplicateurs,
on propose d’adapter cette contrainte d’optimisation en augmentant la valeur
de _ij .
– Dans tous les autres cas, si les contraintes CL et ML sont satisfaites, les paramètres _
correspondant sont suffisants et n’ont pas besoin d’être réévalués. De plus, les poids diminuent
également naturellement jusqu’à devenir éventuellement nuls.
Ce principe de contrôle des mises à jour des multiplicateurs de lagrange est donc réalisée par
une adaptation au préalable des paramètres _. Ainsi, partant d’une initialisation des _ij tels que
les contraintes d’optimisation (cs1) et (cs2) soient infalsifiables, une suite convergente (_(t)
ij )t est
3.7. CONTRIBUTIONS 121
construite de manière heuristique par :
_(t)
ij =
8>>><
>>>:
d2
P (xi; xj)
2
8(xi; xj) 2 ML; Link(xi; xj ;A) ^ cs1(xi; xj)
(d2
P (xi; xj) + d2(xi; xj))
2
8(xi; xj) 2 CL; Link(xi; xj ;A) ^ cs2(xi; xj)
(3.54)
où cs1(xi; xj) indique que la contrainte d’optimisation (cs1) est satisfaite pour le couple
(xi; xj) (idem pour (cs2)).
Algorithme 25 UZABOC
ENTRÉES : X, nk, ML, CL, tf
SORTIES : C = fC1; :::;Cnkg, X_, P_
1 : Initialisation des wij = 0 8(xi; xj) 2 CL [ML
2 : Initialisation des _ij = 0 8(xi; xj) 2 CL et _ij = d2
P (xi; xj) 8(xi; xj) 2 ML
3 : t = 0. Calculer P(t) en résolvant (3.47) et déterminer X(t) = XP(t)
4 : Mise à jour des wij par (3.52)
5 : Si L(P_;w_; __) ne converge pas alors t = t + 1 aller en 3. X_ = X(t) et P_ = P(t)
6 : C = Appliquer A sur X_
7 : Mise à jour de _ par (3.54)
8 : Si t < tf et UZABOC ne converge pas alors aller en 3
9 : Si t < tf alors tf = t
Discussion
L’algorithme UZABOC est relativement proche de BOC. Par une formalisation sous forme d’optimisation
sous contraintes, on peut dégager une similitude forte entre les multiplicateurs de
lagrange de UZABOC et les poids de BOC. L’avantage de UZABOC sur BOC est que l’adaptation
des poids à la satisfaction des contraintes ML et CL par A est moins arbitraire, car reposant sur
un algorithme d’optimisation numérique adapté.
Enfin un autre avantage de l’approche UZABOC est que la distribution naturelle des poids
est apprise par l’algorithme d’optimisation de sorte que l’algorithme tend asymptotiquement à
produire la meilleure (au sens du point-selle) représentation permettant de satisfaire cohérence
et consistance selon l’algorithme A employé. Les approches fondées sur le boosting reposent
quant à elles sur une combinaison linéaire d’hypothèses produites par la distribution des poids
à chaque étape, normalisée et adaptée pour apprendre successivement des hypothèses indépendantes
les unes des autres.
À travers cet aspect se règle également la question de la convergence. Là où les approches par
boosting convergent difficilement vers une solution qui n’est pas le résultat attendu et nécessitent
une procédure finale pour produire un clustering des individus en satisfaisant les contraintes,
l’approche par optimisation cherche le sous-espace optimal réalisant un compromis entre le
terme de cohérence représenté par l’objectif, et le terme de consistance représenté par le terme
de pénalisation introduit dans le lagrangien. L’algorithme d’Uzawa cherche alors à approximer le
point selle de ce lagrangien, correspondant intuitivement à une solution optimale P_ maximisant
la part de cohérence et minimisant la part pénalisante associée à la consistance. Le point selle
du lagrangien L(P_;w_; __) est caractérisé par :
L(P;w_; __) _ L(P_;w_; __) _ L(P_;w; _) (3.55)
122CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES
Dans notre contexte, l’étape de calcul de P_ est associée également au calcul de __, ainsi
on ne peut garantir la maximisation de la borne inférieure du point selle. La mise à jour des
multiplicateurs w permet de réduire la valeur de l’objectif du dual en adaptant les multiplicateurs
au respect des contraintes d’optimisation. Ainsi pour des valeurs de _ fixés, on ne peut
garantir que l’algorithme UZABOC converge vers ce point selle s’il existe, mais nous pouvons
alors observer empiriquement l’écart entre les valeurs des lagragien après mise à jour des différentes
variables (P du primal, et _ et w du dual). La différence entre les deux bornes est appelée
ici le saut de dualité, et celui-ci doit tendre vers 0 à mesure que les contraintes d’optimisation
se stabilisent, caractérisant ainsi l’atteinte d’une solution optimale en dualité forte. Pour finir,
l’approche UZABOC est globalement convergente, puisque les suites (_(t)
ij )t 8(xi; xj) 2 ML sont
décroissantes et minorées par 0, et les suites (_(t)
ij )t 8(xi; xj) 2 CL sont croissantes et majorées
par d2(xi; xj). L’approche converge alors vers une solution optimale lorsque le saut de dualité
s’annule, et converge vers une solution sous-optimale en cas de dualité faible, solution pour laquelle
un écart à l’optimum (un certificat) peut-être calculé. Ces différentes observations laissent
entrevoir deux variantes, simple et adaptative, pour l’algorithme :
– la variante simple UZABOC consiste à approcher complètement le point selle du lagrangien
pour chaque réévaluation des paramètres _;
– la variante adaptative ADAUZABOC consiste à approcher le point selle tout en adaptant
pendant la recherche les valeurs de _ modifiant ainsi en ligne les contraintes du problème
(et la valeur du lagrangien) et réduisant ainsi l’espace des solutions qui leur est associé.
Ainsi, la variante simple (cf. algorithme 25), pour _ fixé, applique complètement et jusqu’à
convergence l’algorithme Uzawa pour obtenir un sous espace P_. A est appliqué sur X_ = XP_
et les erreurs de A sur le respect des contraintes ML et CL mettent à jour les paramètres _ de
manière à guider davantage la recherche d’une meilleure solution de clustering. Cette procédure
est alors réappliquée avec les nouvelles valeurs de _.
ML, CL
X
A H
C
H stable
P
W
ξ
X'
FIGURE 3.5 — Schéma du déroulement d’ADAUZABOC.
Partant d’une initialisation de _ et des poids W, la variante adaptative (Fig. 3.5 et algorithme
26) recherche P_ en cherchant à améliorer la borne inférieure du problème de point selle (3.55)
tout en réévaluant __. A est ensuite appliqué sur X_ = XP_ et _ est mis à jour afin de tenir
compte des erreurs de A sur ML et CL. La mise à jour des poids W n’est alors plus exactement
celle qui permet de réduire la borne supérieure du lagrangien, mais une nouvelle direction de
mise à jour est considéré afin de tenir compte immédiatement du retour de A. Cette variante
se comporte plus comme l’approche par boosting, dans la mesure où chaque itération permet
3.8. ÉVALUATION 123
d’adapter la distribution des poids en insistant davantage sur les paires d’individus correspondant
aux contraintes ML et CL non satisfaites. L’absence de normalisation de ces poids permet
d’obtenir à la fin, une solution réalisant une adéquation entre l’intégration des contraintes ML
et CL et leur satisfaction, et ainsi ne nécessite pas de procédure de vote à la majorité.
Algorithme 26 ADAUZABOC
ENTRÉES : X, nk, ML, CL, tf
SORTIES : C = fC1; :::;Cnkg
1 : Initialisation des wij = 0 8(xi; xj) 2 CL [ML
2 : Initialisation des _ij = 0 8(xi; xj) 2 CL et _ij = d2
P (xi; xj) 8(xi; xj) 2 ML
3 : t = 0. Calculer P(t) en résolvant (3.47) et déterminer X(t) = XP(t)
4 : C = Appliquer A sur X(t)
5 : Mise à jour de _ par (3.54)
6 : Mise à jour des wij par (3.52)
7 : Si t < tf et ADAUZABOC ne converge pas alors t = t + 1 et aller en 3. X_ = X(t) et
P_ = P(t)
8 : Si t < tf alors tf = t
Ces deux variantes sont illustrées dans la figure 3.6 pour la recherche d’une solution optimale.
Elles seront discutées davantage dans l’évaluation empirique.
3.8 Évaluation
3.8.1 Données
Les jeux de données utilisés pour l’évaluation expérimentale des différentes contributions
BOC, UZABOC et ADAUZABOC proviennent tous de la base UCI 1. Il s’agit des jeux de données
Iris, Wine, Parkinson et WDBC. Les caractéristiques principales de ces jeux de données sont
résumés dans le tableau 3.1.
Jeu Nb. Individus Nb. Attributs Nb. classes
Iris 150 4 3
Wine 178 13 3
Parkinson 195 22 2
WDBC 569 30 2
TABLEAU 3.1 — Caractéristiques des jeux de données utilisés pour le clustering semi-supervisé.
– Le jeu de donnée Iris correspond à un ensemble de 150 fleurs représentant 3 variétés d’iris
présentes en quantités homogènes, soient 50 Iris par classe.
– Le jeu Wine correspond à différents vins d’Italie et sont représentés par leurs constituants
chimique ou descripteurs sensoriels (taux d’acidité, alcool, magnésium, intensité de la
couleur, etc.).
– Parkinson est un jeu de donnée dans lequel 195 enregistrements vocaux de 31 patients sont
représentés par des descripteurs numériques issus de techniques de traitement du signal
(fréquence fondamentale minimum, maximum, moyenne, mesures de variation d’amplitude,
etc.).
1. http://archive.ics.uci.edu/ml/
124CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES
P(0)
P(3)
P*
P(0)
P(3)
P*
P(0)
P(3)
P*
P(0) P(0)
P(3)
P(0)
P(3)
P*
FIGURE 3.6 — Illustration des méthodes de recherche du sous espace optimal P_ par UZABOC et ADAUZABOC.
La première ligne se réfère à la recherche de P_ par UZABOC. Pour _ fixé, les contraintes sont
fixées et l’ensemble des solutions réalisables est défini. UZABOC recherche alors le P_ satisfaisant ces
contraintes. Selon la performance de A, les contraintes sont modifiées par modification des bornes _.
Cela se traduit par une réduction de l’ensemble des solutions réalisables, une nouvelle recherche du P_
conforme aux contraintes est alors lancée. Ces opérations sont renouvellées jusqu’à ce que les bornes
cessent d’évoluer. La deuxième ligne montre l’évolution de la recherche de P_ par ADAUZABOC, où dans
ce contexte, l’espace des solutions réalisables évolue pendant la recherche de P_.
– Les données de WDBC concernent le diagnostic de cancer du sein. 569 images de seins sont
numérisées et décrites par différents attributs géométriques (périmètre, aire, concavité,
compacité, rayon etc..) ainsi que des attributs de variations de niveaux de gris, dans le but
de repérer des masses cancéreuses.
3.8.2 Protocole expérimental
Le protocole expérimental suivi fixe les différents paramètres pour l’étude comparative des
approches BOC, ADAUZABOC et BC. Les différentes approches à évaluer repose sur une construction
et une diagonalisation d’une matrice de corrélations entre les variables des données (ACP).
Afin de respecter des principes de base de l’analyse de données, des pré-traitements ont été réalisés.
Les jeux de données on tous été centrés et des expériences ont été conduites sans ou avec
réduction afin d’attribuer une importance équitable à tous les descripteurs. Dans le même esprit
et concernant la recherche du sous-espace optimal pratiqué par BOC, UZABOC, ADAUZABOC et
BC, le nombre de dimensions du sous-espace peut :
– être fixé et constant pendant tout le processus d’amélioration de A,
3.8. ÉVALUATION 125
– évoluer au fil des itérations selon l’heuristique consistant à ne sélectionner que les vecteurs
propres correspondant aux valeurs propres positives.
Les approches ont également été éprouvées selon différents algorithmes de clustering boîte
noire afin de valider l’amélioration des performances de ces algorithmes. Les différents algorithmes
A testés 2 sont :
– K-MEANS (cf. section 1.3.1.1) ;
– SPECTRAL CLUSTERING (cf. section 1.3.1.2) sur le graphe des 15 plus proches voisins avec
le laplacien Lrw ;
– CLINK (cf. section 1.2.2).
Pour ces différents algorithmes de clustering, le nombre de groupes à déterminer correspond
au nombre de classes nk = nc. Ensuite, différentes stratégies ont été envisagées pour générer
différentes informations de semi-supervision à partir des données. Comme il s’agit de données
pour lesquelles on peut obtenir les classes des individus, cette information sert à générer des
contraintes valides par rapport à l’objectif d’amélioration de performance. Celles-ci ont été générées
aléatoirement.
Cependant, dans l’optique d’observer l’amélioration des contributions, à nombre de contraintes
données augmentant, plusieurs modes de génération peuvent être considérés. Les expériences
présentées ont été réalisées selon la stratégie suivante 3 : partant d’un ensemble de contraintes
ML et CL, celles-ci sont conservées et enrichies par de nouvelles, jusqu’à atteindre un nombre
de contraintes fixé. De plus, les contraintes sont tirées de telle sorte à conserver un nombre
équilibré de ML et de CL.
Dans l’optique d’étudier la robustesse des contributions, une partie des expériences a été
renouvelée en introduisant du bruit dans les contraintes, dans le sens où certaines contraintes
ML ou CL sont incohérentes avec les classes d’origine. Le pourcentage de contraintes bruitées
est fixé à 20%.
Ensuite, différents choix d’initialisation peuvent être réalisés sur A afin de (1) placer les
approches comparatives dans une posture d’égalité vis à vis de l’instabilité inhérente à A lorsque
celui-ci est par nature non déterministe (KM, SC), ou au contraire (2) d’étudier la robustesse
des approches au regard de cette instabilité :
– une même initialisation peut être apportée à l’algorithme A pour toutes les exécutions
des approches comparatives. Ceci permet d’observer la stabilité de ces approches pour
l’amélioration d’une boîte noire A rendue déterministe ;
– une même initialisation (par exécution) peut être considérée et identique pour toutes les
approches comparatives. Ceci permet de mettre les approches sur un pied d’égalité et dans
ce contexte, d’observer leur robustesse face à différents comportements de A;
– une initialisation différente peut être envisagée pour toutes les approches et à chaque fois
que A est sollicité pour produire un clustering. Ce cas permet d’observer la robustesse des
contributions et de BC face à une boîte noire A plus instable.
Dans les expériences présentées, les algorithmes de clustering employés ont été initialisés
selon la seconde stratégie. Pour finir, concernant l’approche BOC uniquement, le paramètre _
permettant de moduler entre la cohérence et la consistance de la solution est affecté à différentes
valeurs dans l’intervalle [0::1] pour observer le comportement de la méta-heuristique selon ce
paramètre.
2. les approches FKM, ALINK, SLINK, DBSCAN, KKM, KFKM et EM ont également été implémentées mais ne sont
pas incluses dans ces tests.
3. une stratégie de génération aléatoire a également été implémentée mais n’est pas inclue dans ces tests.
126CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES
Concernant le nombre d’itération maximum, pour _ fixé, UZABOC réalise au plus 50 itérations
pour approximer le point selle. Le nombre d’itération global autorisant les modifications
de _ est fixé à 20, de même que pour le nombre d’étape de boosting pour BOC.
3.8.3 Évaluation interne
Les comportements des différentes contributions ont été observés en parallèle sur Iris pour
une exécution des méta-algorithmes, selon deux angles et pour deux approches de clustering
différentes : KM et CLINK. La première observation consiste à étudier le phénomène de convergence
des approches. UZABOC et ADAUZABOC approximent le point selle du lagrangien avec
(UZABOC) ou sans (ADAUZABOC) variation sur les contraintes lors de l’apprentissage d’un sousespace
optimal. Ainsi, le saut de dualité doit tendre vers 0, ce qui caractérise l’optimalité de
la solution au regard de la satisfaction des contraintes du problème d’optimisation. À défaut,
une meilleure approximation du point selle est obtenue, pour un saut de dualité positif. Une
autre manière de voir cette convergence est d’observer la variation des poids entre deux étapes
du méta algorithme, celui-ci devant tendre vers 0 à mesure que la convergence est approchée.
Ce critère a été retenu pour observer la convergence de BOC, qui n’est pas exprimé explicitement
comme la recherche d’un point selle. Ces deux critères sont couplés à l’observation de la
satisfaction des contraintes utilisateurs CL et ML. Cette observation permet de corréler la validité
de la modélisation associée à la satisfaction des contraintes au regard de l’objectif initial.
Enfin, comme indice de qualité du méta-algorithme employé, le critère externe d’information
mutuelle normalisée (NMI 1.24) est indiqué à titre indicatif. Cela permet de mesurer l’impact
sur la qualité du clustering de chaque étape du méta-algorithme. Ces différentes observations
sont présentées dans les graphiques 3.9 à 3.14.
Dim ACP=1
Dim ACP=2
Dim ACP=3
Dim ACP=4
Dim ACP=1 (eta=1)
Dim ACP=2 (eta=1)
Dim ACP=3 (eta=1)
Dim ACP=4 (eta=1)
Dim ACP=1 (eta=0,75)
Dim ACP=2 (eta=0,75)
Dim ACP=3 (eta=0,75)
Dim ACP=4 (eta=0,75)
Dim ACP=1 (eta=0,5)
Dim ACP=2 (eta=0,5)
Dim ACP=3 (eta=0,5)
Dim ACP=4 (eta=0,5)
Dim ACP=1 (eta=0,25)
Dim ACP=2 (eta=0,25)
Dim ACP=3 (eta=0,25)
Dim ACP=4 (eta=0,25)
FIGURE 3.7 — Légende de l’évaluation
interne pour UZABOC et ADAUZABOC (à
gauche), et BOC (à droite).
FIGURE 3.8 — Légende de l’évaluation
externe de BOC, UZABOC et ADAUZABOC
relativement à BC.
Étude empirique de la convergence
On remarque en premier lieu sur la figure 3.9 que, pour l’exécution concernée, les approches
BOC convergent vers une stabilisation de la variation des valeurs de poids entre deux étapes.
3.8. ÉVALUATION 127
Chaque étape de boosting permet d’obtenir des solutions très variées et on observe en général
que plus l’on cherche à satisfaire la consistance (_ = 1), plus les solutions obtenues satisfont
les contraintes. De plus, si l’on observe la corrélation avec l’évolution de la mesure d’évaluation
externe, on constate que les performances sur l’ensemble des jeux de données sont complètement
corrélées avec la satisfaction des contraintes tirées au hasard, quelque soit leur nombre.
La performance finale est déterminée uniquement par la décision induite par le type de fusion
employé pour BOC.
Concernant UZABOC (Fig. 3.10) et ADAUZABOC (Fig. 3.11), on constate cette fois en premier
lieu que les deux approches tendent à converger vers une annulation du saut de dualité. Ceci
est plus flagrant sur l’approche ADAUZABOC, étant donné qu’elle converge plus rapidement que
UZABOC (les contraintes s’adaptant pendant la résolution du problème par Uzawa). De plus,
les évolutions des méta-algorithmes tendent à produire des solutions satisfaisant davantage les
contraintes ML et CL. Cette satisfaction progressive des contraintes est encore une fois corrélée
quelque soit l’approche, à une amélioration de la performance relative au critère d’évaluation
externe.
128CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES
0 10 20 30 40 50
0.00 0.05 0.10 0.15 0.20 0.25 0.30
Nb. contraintes = 74
Nb. Itérations
Variation sur les poids
0 10 20 30 40 50
0.0 0.1 0.2 0.3 0.4
Nb. contraintes = 220
Nb. Itérations
Variation sur les poids
0 10 20 30 40 50
0.00 0.05 0.10 0.15 0.20
Nb. contraintes = 368
Nb. Itérations
Variation sur les poids
0 10 20 30 40 50
5 10 15
Nb. contraintes = 74
Nb. Itérations
Nb. contraintes violées
0 10 20 30 40 50
20 40 60 80
Nb. contraintes = 220
Nb. Itérations
Nb. contraintes violées
0 10 20 30 40 50
20 40 60 80
Nb. contraintes = 368
Nb. Itérations
Nb. contraintes violées
0 10 20 30 40 50
0.0 0.2 0.4 0.6 0.8
Nb. contraintes = 74
Nb. Itérations
NMI
0 10 20 30 40 50
0.0 0.2 0.4 0.6 0.8
Nb. contraintes = 220
Nb. Itérations
NMI
0 10 20 30 40 50
0.0 0.2 0.4 0.6 0.8
Nb. contraintes = 368
Nb. Itérations
NMI
FIGURE 3.9 — Convergence empirique de BOC avec KM étudiée en observant la variation sur les poids
sur Iris centré et réduit.
3.8. ÉVALUATION 129
0 50 100 150 200
0 100 200 300 400
Nb. contraintes = 74
Nb. Itérations
Saut de dualité
0 100 200 300 400
0 500 1000 1500
Nb. contraintes = 220
Nb. Itérations
Saut de dualité
0 100 200 300 400 500 600
0 500 1000 1500 2000 2500
Nb. contraintes = 368
Nb. Itérations
Saut de dualité
0 50 100 150 200
10 15 20 25
Nb. contraintes = 74
Nb. Itérations
Nb. contraintes violées
0 100 200 300 400
10 20 30 40 50 60 70
Nb. contraintes = 220
Nb. Itérations
Nb. contraintes violées
0 100 200 300 400 500 600
20 40 60 80 100
Nb. contraintes = 368
Nb. Itérations
Nb. contraintes violées
0 50 100 150 200
0.55 0.60 0.65 0.70 0.75 0.80 0.85
Nb. contraintes = 74
Nb. Itérations
NMI
0 100 200 300 400
0.5 0.6 0.7 0.8 0.9
Nb. contraintes = 220
Nb. Itérations
NMI 0
100 200 300 400 500 600
0.5 0.6 0.7 0.8
Nb. contraintes = 368
Nb. Itérations
NMI
FIGURE 3.10 — Convergence empirique de UZABOC avec KM étudiée en observant le saut de dualité sur
Iris centré et réduit.
130CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES
0 20 40 60 80
0 50 100 150 200 250
Nb. contraintes = 74
Nb. Itérations
Saut de dualité
0 20 40 60 80 100
0 100 200 300 400 500 600
Nb. contraintes = 220
Nb. Itérations
Saut de dualité
0 20 40 60 80 100
0 500 1000 1500
Nb. contraintes = 368
Nb. Itérations
Saut de dualité
0 20 40 60 80
10 15 20
Nb. contraintes = 74
Nb. Itérations
Nb. contraintes violées
0 20 40 60 80 100
25 30 35 40 45 50 55 60
Nb. contraintes = 220
Nb. Itérations
Nb. contraintes violées
0 20 40 60 80 100
50 60 70 80 90 100 110
Nb. contraintes = 368
Nb. Itérations
Nb. contraintes violées
0 20 40 60 80
0.50 0.55 0.60 0.65 0.70 0.75 0.80
Nb. contraintes = 74
Nb. Itérations
NMI
0 20 40 60 80 100
0.60 0.65 0.70 0.75
Nb. contraintes = 220
Nb. Itérations
NMI
0 20 40 60 80 100
0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80
Nb. contraintes = 368
Nb. Itérations
NMI
FIGURE 3.11 —Convergence empirique de ADAUZABOC avec KM étudiée en observant le saut de dualité
sur Iris centré et réduit.
3.8. ÉVALUATION 131
0 10 20 30 40 50
0.0 0.1 0.2 0.3 0.4
Nb. contraintes = 74
Nb. Itérations
Variation sur les poids
0 10 20 30 40 50
0.00 0.02 0.04 0.06
Nb. contraintes = 220
Nb. Itérations
Variation sur les poids
0 10 20 30 40 50
0.00 0.05 0.10 0.15 0.20 0.25 0.30
Nb. contraintes = 368
Nb. Itérations
Variation sur les poids
0 10 20 30 40 50
5 10 15 20 25 30 35
Nb. contraintes = 74
Nb. Itérations
Nb. contraintes violées
0 10 20 30 40 50
20 40 60 80 100
Nb. contraintes = 220
Nb. Itérations
Nb. contraintes violées
0 10 20 30 40 50
50 100 150
Nb. contraintes = 368
Nb. Itérations
Nb. contraintes violées
0 10 20 30 40 50
0.0 0.2 0.4 0.6 0.8
Nb. contraintes = 74
Nb. Itérations
NMI
0 10 20 30 40 50
0.0 0.2 0.4 0.6 0.8
Nb. contraintes = 220
Nb. Itérations
NMI 0
10 20 30 40 50
0.0 0.2 0.4 0.6 0.8
Nb. contraintes = 368
Nb. Itérations
NMI
FIGURE 3.12 — Convergence empirique de BOC avec CLINK étudiée en observant le saut de dualité sur
Iris centré et réduit.
132CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES
0 10 20 30 40 50 60
0 100 200 300
Nb. contraintes = 74
Nb. Itérations
Saut de dualité
0 50 100 150 200
0 200 400 600 800 1000
Nb. contraintes = 220
Nb. Itérations
Saut de dualité
0 50 100 150
0 500 1000 1500 2000
Nb. contraintes = 368
Nb. Itérations
Saut de dualité
0 10 20 30 40 50 60
0 5 10 15 20 25
Nb. contraintes = 74
Nb. Itérations
Nb. contraintes violées
0 50 100 150 200
20 40 60 80
Nb. contraintes = 220
Nb. Itérations
Nb. contraintes violées
0 50 100 150
20 40 60 80 100 120 140
Nb. contraintes = 368
Nb. Itérations
Nb. contraintes violées
0 10 20 30 40 50 60
0.4 0.5 0.6 0.7 0.8
Nb. contraintes = 74
Nb. Itérations
NMI
0 50 100 150 200
0.4 0.5 0.6 0.7 0.8 0.9
Nb. contraintes = 220
Nb. Itérations
NMI
0 50 100 150
0.4 0.5 0.6 0.7 0.8 0.9
Nb. contraintes = 368
Nb. Itérations
NMI
FIGURE 3.13 — Convergence empirique de UZABOC avec CLINK étudiée en observant le saut de dualité
sur Iris centré et réduit.
3.8. ÉVALUATION 133
0 10 20 30 40 50 60 70
0 50 100 150 200
Nb. contraintes = 74
Nb. Itérations
Saut de dualité
0 20 40 60 80 100
0 500 1000 2000 3000
Nb. contraintes = 220
Nb. Itérations
Saut de dualité
0 20 40 60 80 100
0 1000 2000 3000 4000 5000 6000
Nb. contraintes = 368
Nb. Itérations
Saut de dualité
0 10 20 30 40 50 60 70
5 10 15 20 25
Nb. contraintes = 74
Nb. Itérations
Nb. contraintes violées
0 20 40 60 80 100
20 40 60 80 100
Nb. contraintes = 220
Nb. Itérations
Nb. contraintes violées
0 20 40 60 80 100
50 100 150
Nb. contraintes = 368
Nb. Itérations
Nb. contraintes violées
0 10 20 30 40 50 60 70
0.4 0.5 0.6 0.7 0.8
Nb. contraintes = 74
Nb. Itérations
NMI
0 20 40 60 80 100
0.2 0.4 0.6 0.8
Nb. contraintes = 220
Nb. Itérations
NMI 0
20 40 60 80 100
0.2 0.4 0.6 0.8
Nb. contraintes = 368
Nb. Itérations
NMI
FIGURE 3.14 — Convergence empirique de ADAUZABOC avec CLINK étudiée en observant le saut de
dualité sur Iris centré et réduit.
134CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES
3.8.4 Évaluation externe
Les approches BOC, UZABOC et ADAUZABOC ont été évaluées empiriquement dans le but de
mesurer leur performance relativement à l’évolution du nombre de contraintes, décrite dans le
protocole précédent. BOC a été testé selon différentes valeurs de _ (eta) et selon différent types
de fusions finales pour obtenir un clustering à partir des différentes hypothèses produites durant
le processus de boosting. Les différentes instances de l’approche BOC sont désignées par :
BOC 1 : des poids moyens ~ wij sont déterminés pour toutes les paires d’individus impliqués
dans les contraintes :
~ wij =
Xtf
t=1
_(t)w(t)
ij
Ces poids servent pour obtenir une nouvelle représentation optimale des individus sur
laquelle appliquer A. Cette forme de fusion est suggéré dans le paragraphe 4.6.2.§ 2.
BOC 2 : une matrice de similarité ~K (noyau) est construite à partir d’une moyenne pondérée
par les confiances des hypothèses de clustering sur les paires d’individus :
~K
=
Xtf
t=1
_(t)H(t)
Cette matrice noyau sert directement de matrice de similarité, ou à redéfinir une distance,
utilisée ensuite par A pour obtenir un clustering des individus. Ce type de construction de
C est semblable à celle employée par BC, et est suggéré dans le paragraphe 4.6.2.§ 1.
BOC 3 : une matrice de similarité ~K est construite à partir d’une somme pondérée des
similarités entre individus obtenues dans les différentes représentations optimales :
~K
=
Xtf
t=1
_(t)X(t)X(t)>
Ce type de construction de ~K et son utilisation comme matrice de produit scalaire pour
définir une distance, revient à calculer la matrice moyenne des distances entre individus
à chaque étape de boosting. Cela revient également à calculer une distance à partir de la
concaténation des différentes représentations optimales obtenues lors du processus itératif,
comme suggéré au paragraphe 4.6.2.§ 3.
Les résultats présentés dans les graphiques 3.15 à 3.26 permettent d’étudier les différentes
approches selon le jeu de donnée et les algorithmes de clustering employés. Chaque série de graphiques
présente l’évolution de la performance des algorithmes de clustering KM, SC et CLINK,
relativement au nombre de contraintes, pour chaque jeu de données et dans des configurations
différentes. Ces expériences nous permettent de discuter de :
– l’apport des méta-algorithmes sur la qualité des groupes produits par les différents algorithmes
de clustering ;
– l’impact du paramètre _ (eta) sur BOC, et d’établir par ce biais l’impact de la recherche de
cohérence sur la performance ;
– la performance relative des contributions par rapport à BC;
– l’impact de la normalisation des données.
Chaque série de graphiques est constituée de deux lignes de trois graphiques. La première
ligne concerne l’évolution du F-score et la seconde, l’évolution de l’information mutuelle normalisée.
Dans chaque ligne, les trois graphiques concernent, dans l’ordre, KM, SC et CLINK.
3.8. ÉVALUATION 135
0 100 200 300
75 80 85
PWF (iris)
Nb. Contraintes
Fs
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l l l
l
l
ll ll ll ll ll ll
0 100 200 300
50 60 70 80 90
PWF (iris)
Nb. Contraintes
Fs
l
l
l
l
l
l
l
l
l
l
l
l
l
l l l
l
l
l l l
l
l
l
l
l l
l
l
l
l l
l
l l l l
l
l l l l
l l l l 0 100 200 300
65 70 75 80
PWF (iris)
Nb. Contraintes
Fs
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l l l l
l l
l l l
l l l l 0 100 200 300
0.60 0.65 0.70 0.75 0.80
NMI (iris)
Nb. Contraintes
Nmia
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l
l
l
l
l
l
l
l
l l l l
l
ll ll lll ll ll ll
0 100 200 300
0.0 0.2 0.4 0.6 0.8
NMI (iris)
Nb. Contraintes
Nmia
l
l
l
l l
l
l
l
l
l l
l
l
l l l
l
l
l l l
l
l
l
l
l l
l
l
l
l l
l
l l l l
l
l l l l
l l l 0 100 200 300
0.55 0.60 0.65 0.70 0.75
NMI (iris)
Nb. Contraintes
Nmia
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l
l l
l
l l
l l
l l l l l l FIGURE 3.15 — Comparaison des approches BOC, UZABOC, ADAUZABOC et BC sur Iris centré et réduit.
0 200 400 600 800 1000 1200
62 64 66 68 70 72
PWF (parkinson)
Nb. Contraintes
Fs
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l l
l
l
l l l
l
l l
ll ll ll ll ll ll
0 200 400 600 800 1000 1200
65 70 75
PWF (parkinson)
Nb. Contraintes
Fs
l
l l
l l l
l
l l
l l l
l
l
l
l
l
l
l
l l l l
l l l l l l l l l 0 200 400 600 800 1000 1200
65 70 75
PWF (parkinson)
Nb. Contraintes
Fs
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l l
l
l
l l l
l
l l
ll ll ll ll ll ll
0 200 400 600 800 1000 1200
0.10 0.15 0.20 0.25
NMI (parkinson)
Nb. Contraintes
Nmia
l
l
l
l
l
l
l
l
l
l
l
l
l l l
l
l
l l l
l
l l
ll ll ll ll ll ll
0 200 400 600 800 1000 1200
0.05 0.10 0.15 0.20 0.25
NMI (parkinson)
Nb. Contraintes
Nmia
l
l
l
l
l
l
l
l
l
l
l
l
l l
l
l
l
l
l
l
l
l
l
l l
l
l l
l l l 0 200 400 600 800 1000 1200
0.05 0.10 0.15
NMI (parkinson)
Nb. Contraintes
Nmia
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l l
l
l
l l l
l
l l
ll ll ll ll ll ll
FIGURE 3.16 — Comparaison des approches BOC, UZABOC, ADAUZABOC et BC sur Parkinson centré et
réduit.
136CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES
0 100 200 300 400 500
75 80 85 90 95
PWF (wine)
Nb. Contraintes
Fs
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l
l
l
l l
l
l
l
l
l
l
l
l
l
l
l l l l
l
l l l
l
ll ll ll ll ll ll
0 100 200 300 400 500
60 70 80 90 100
PWF (wine)
Nb. Contraintes
Fs
l
l
l
l
l l
l
l
l
l
l l
l l
l
l l
l
l l l l
l
l l
l l
l l
l l
l l
ll ll ll ll ll lll
0 100 200 300 400 500
65 70 75 80 85 90 95
PWF (wine)
Nb. Contraintes
Fs
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l
l
l
l l
l
l
l l
l
l
l
l l
l
l l l l l
l l l l l
0 100 200 300 400 500
0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95
NMI (wine)
Nb. Contraintes
Nmia
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l
l
l
l l
l
l
l l l
l
l
l l
l l l l
l
l l l
l
ll ll ll ll ll ll
0 100 200 300 400 500
0.2 0.4 0.6 0.8
NMI (wine)
Nb. Contraintes
Nmia
l l
l
l
l
l
l
l
l
l
l
l
l l l l
l
l l l l
l
ll ll ll ll l
l l l l l
l l l l
ll ll ll lll ll
0 100 200 300 400 500
0.6 0.7 0.8 0.9
NMI (wine)
Nb. Contraintes
Nmia
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l
l l
l
l
l
l l
l
l
l
l
l
l
l
l
l
l
l l l l l
l l l l l
FIGURE 3.17 —Comparaison des approches BOC, UZABOC, ADAUZABOC et BC sur wine centré et réduit.
0 2000 4000 6000 8000
82 84 86 88 90
PWF (wdbc)
Nb. Contraintes
Fs
l
l
l
l
l
l
l l
l
l
l
l
l
l
l l l
l
l
l
l l
l
l l l
ll ll ll ll ll ll
0 2000 4000 6000 8000
70 75 80 85 90
PWF (wdbc)
Nb. Contraintes
Fs
l
l
l
l
l l
l
l
l
l
l l
l
l l l l
l
ll llll lll lll lll ll
0 2000 4000 6000 8000
60 65 70 75
PWF (wdbc)
Nb. Contraintes
Fs l
l l
l l
l
l
l l
l l
l
ll ll ll ll ll ll
0 2000 4000 6000 8000
0.50 0.55 0.60 0.65 0.70 0.75
NMI (wdbc)
Nb. Contraintes
Nmia
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l l
l
l
l
l l
l
l l l
ll ll ll ll ll ll
0 2000 4000 6000 8000
0.0 0.2 0.4 0.6
NMI (wdbc)
Nb. Contraintes
Nmia
l
l
l
l l
l
l
l
l
l l
l
ll llllll ll llll ll ll
0 2000 4000 6000 8000
0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35
NMI (wdbc)
Nb. Contraintes
Nmia
l
l
l
l
l
l
l
l
l
l
l
l
ll ll ll ll ll ll
FIGURE 3.18 — Comparaison des approches BOC, UZABOC, ADAUZABOC et BC sur WDBC centré et
réduit.
3.8. ÉVALUATION 137
Amélioration de la performance des algorithmes de clustering
Globalement, comme on peut le constater sur la quasi-intégralité des données centrées et
réduites (Fig. 3.15 à Fig. 3.18), les contributions UZABOC et ADAUZABOC permettent systématiquement
d’améliorer la performance des trois algorithmes de clustering employés. Le cas
où l’amélioration ne semble pas être réalisée (pour le jeu de donnée parkinson (Fig. 3.16)) est
relatif à la mesure de F-score, l’amélioration est observable selon l’information mutuelle normalisée.
Ceci s’explique par l’obtention d’une solution moins dégénérée, dans le sens où un groupe
devient plus important en taille que les autres, ce qui favorise le rappel et a fortiori le F-score.
L’approche BOC est quant à elle plus instable.
Amélioration de la qualité relativement à l’état de l’art
On constate également que sur la grande majorité des jeux de données, les approches UZABOC
et ADAUZABOC surpassent l’approche BC. Sur Iris, L’écart de performance est plus mince,
et sur Parkinson ces écarts sont relatifs à la mesure d’évaluation, notamment à la faiblesse du
F-score. Seul CLINK semble être davantage amélioré par BC que par UZABOC ou ADAUZABOC.
Concernant les variantes de BOC et les différentes valeurs du paramètre _, les résultats sont
mitigés. On remarque que BOC 3 a un plus mauvais comportement dans le cas général que les
versions BOC 1 et BOC 2. En revanche dans tous les cas, on constate que plus la prise en compte
de la cohérence est importante, plus la performance se dégrade, ce qui semble contredire l’intuition
de départ concernant la volonté de préserver au mieux la distribution d’origine des données.
Néanmoins, il est normal d’observer de tels résultats relativement aux mesures d’évaluation externe,
car plus la part de consistance est importante, plus on a de chances de réussir à satisfaire
les contraintes, et ainsi à retrouver une bonne part de la classification de référence. Une évaluation
alternative serait de ne mesurer par évaluation externe, que le résultat de clustering sur les
individus non impliqués dans une contrainte. De plus, les approches UZABOC et ADAUZABOC,
qui dominent les différentes approches envisagées, reposent sur la maximisation du critère de
cohérence régularisé.
Impact du bruit dans les informations externes
L’impact du bruit a également été observé sur les différents jeux de données (Fig. 3.19 à
Fig. 3.22). La constatation principale que l’on peut faire dans ce contexte est que hormis pour
le jeu de données WDBC, les contributions sont en général moins robustes que BC. De plus
l’observation des différentes variantes de BOC indique cette fois que la recherche uniquement de
consistance fait chuter l’amélioration de la performance, ce qui donne du crédit à la recherche
de cohérence. Cependant, il est très difficile d’améliorer ne serait-ce que l’algorithme de base
employé sur la représentation d’origine, dans la mesure où les approches de type BOC s’arrêtent
souvent brutalement par non réalisation de l’hypothèse du classifieur faible. En effet si le jeu de
donnée se prête aux approche de clustering semi-supervisées indépendante de l’algorithme, alors
si celui-ci parvient à retrouver naturellement une bonne classification, il réalisera des erreurs sur
les contraintes bruitées.
138CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES
0 100 200 300
50 55 60 65 70 75 80
PWF (iris)
Nb. Contraintes
Fs
l
l
l
l l
l
l
l
l
l l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l
l
l
l
l l
l
l l l l
l
ll ll ll ll ll ll
0 100 200 300
50 60 70 80
PWF (iris)
Nb. Contraintes
Fs
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l l
l l l l l 0 100 200 300
60 65 70 75 80
PWF (iris)
Nb. Contraintes
Fs
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l
l
l
l
l l
l
l
l
l
l
l
l
l
l l
l l l
l 0 100 200 300
0.3 0.4 0.5 0.6 0.7
NMI (iris)
Nb. Contraintes
Nmia
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l
l
l l l l
l
ll ll ll ll ll ll
0 100 200 300
0.0 0.2 0.4 0.6 0.8
NMI (iris)
Nb. Contraintes
Nmia
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l
l
l
l
l
l
l
l l l l
l l l l 0 100 200 300
0.4 0.5 0.6 0.7
NMI (iris)
Nb. Contraintes
Nmia
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l
l
l
l
l
l
l
l
l
l
l l
l
l
l
l l
l
l l
l
l
l
l
l
l
l
l l l l l l l l FIGURE 3.19 — Comparaison des approches BOC, UZABOC, ADAUZABOC et BC sur le jeu Iris centré et
réduit avec contraintes bruitées.
0 200 400 600 800 1000 1200
60 62 64 66 68 70 72
PWF (parkinson)
Nb. Contraintes
Fs
l
l
l
l
l
l
l
l
l
l
l
l
l
l l l l
l
ll l ll ll ll ll
lll 0 200 400 600 800 1000 1200
65 70 75
PWF (parkinson)
Nb. Contraintes
Fs
l
l
l l
l
l
l
l
l
l
l
l
l
l
l l l
l
l
ll l l ll ll ll
l
ll ll 0 200 400 600 800 1000 1200
60 65 70 75
PWF (parkinson)
Nb. Contraintes
Fs
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l l
l
l
l l l
l
l l
ll ll ll ll ll ll
0 200 400 600 800 1000 1200
0.10 0.15 0.20
NMI (parkinson)
Nb. Contraintes
Nmia
l
l
l
l
l
l
l
l
l
l
l
l
l
l l l l
l
ll ll lll ll ll ll
0 200 400 600 800 1000 1200
0.00 0.05 0.10 0.15 0.20
NMI (parkinson)
Nb. Contraintes
Nmia
l
l
l
l
l
l
l l
l
l
l
l
l l
l
l
l
l
l
l
l
ll l l l l ll
l
ll ll ll ll 0 200 400 600 800 1000 1200
0.05 0.10 0.15
NMI (parkinson)
Nb. Contraintes
Nmia
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l l
l
l
l l l
l
l l
ll ll ll ll ll ll
FIGURE 3.20 — Comparaison des approches BOC, UZABOC, ADAUZABOC et BC sur le jeu Parkinson
centré et réduit avec contraintes bruitées.
3.8. ÉVALUATION 139
0 100 200 300 400 500
50 60 70 80 90
PWF (wine)
Nb. Contraintes
Fs
l
l
l l
l
l
l
l
l l
l
l
l
l
l
l
l
l
l
l
l
l
l l
l
l
l l
l
l l
l
l l l l
l
ll ll ll lll lll ll
0 100 200 300 400 500
40 50 60 70 80 90
PWF (wine)
Nb. Contraintes
Fs
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l l
l
l l l
l
l l
l
ll ll ll ll ll ll
0 100 200 300 400 500
60 70 80 90
PWF (wine)
Nb. Contraintes
Fs
l
l l
l
l
l
l
l l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l
l
l
l l
l
l
l l
l l
l
l l
l l
l l l l
l l l l
0 100 200 300 400 500
0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
NMI (wine)
Nb. Contraintes
Nmia
l
l
l l
l
l
l
l
l l
l
l
l
l l l
l
l
l l
l
l
l l
l
l l
l l
l
l l
l
l l l
l
ll ll ll lll ll ll
0 100 200 300 400 500
0.2 0.4 0.6 0.8
NMI (wine)
Nb. Contraintes
Nmia
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l
l
l l l
l
l l l
l
ll ll ll ll ll ll
0 100 200 300 400 500
0.3 0.4 0.5 0.6 0.7 0.8
NMI (wine)
Nb. Contraintes
Nmia
l
l l
l
l
l
l
l l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l
l
l l
l l
l
l l
l l l l
l l l l l
FIGURE 3.21 — Comparaison des approches BOC, UZABOC, ADAUZABOC et BC sur le jeu wine centré et
réduit avec contraintes bruitées.
0 2000 4000 6000 8000
65 70 75 80 85 90
PWF (wdbc)
Nb. Contraintes
Fs
l
l
l l
l
l
l
l
l l
l
l
l
l l l l
l
l
ll ll ll ll ll ll
0 2000 4000 6000 8000
70 75 80 85 90
PWF (wdbc)
Nb. Contraintes
Fs
l
l
l
l
l
l
l
l
l
l
l
l
l
l l l l
l
ll lll lll ll ll ll
0 2000 4000 6000 8000
55 60 65 70 75
PWF (wdbc)
Nb. Contraintes
Fs
l l l
l
l
l l l
l
l
l
ll ll ll ll ll ll
0 2000 4000 6000 8000
0.2 0.3 0.4 0.5 0.6 0.7
NMI (wdbc)
Nb. Contraintes
Nmia
l
l
l l
l
l
l
l
l l
l
l
l
l
l l l
l
l
ll lll ll ll ll ll
0 2000 4000 6000 8000
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7
NMI (wdbc)
Nb. Contraintes
Nmia
l
l
l
l
l
l
l
l
l
l
l
l
l
l l l l
l
ll ll ll ll ll ll
0 2000 4000 6000 8000
0.00 0.05 0.10 0.15 0.20 0.25 0.30
NMI (wdbc)
Nb. Contraintes
Nmia
l l
l
l
l
l l l
l
l
l
ll ll ll ll ll ll
FIGURE 3.22 — Comparaison des approches BOC, UZABOC, ADAUZABOC et BC sur le jeu WDBC centré
et réduit avec contraintes bruitées.
140CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES
0 100 200 300
78 80 82 84 86 88 90
PWF (iris)
Nb. Contraintes
Fs
l
l
l
l l
l
l
l
l
l l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l
l
l
l
l l
l
l
l
l l l
l
l
ll ll ll ll ll ll
0 100 200 300
50 60 70 80 90
PWF (iris)
Nb. Contraintes
Fs
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l
l
l l
l l
l
l l
l
l l l
l
l
l l l
l l l l l l 0 100 200 300
70 75 80 85
PWF (iris)
Nb. Contraintes
Fs
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l l
l
l
l l l
l
l
l
l
l l l
l
l
l l l
ll ll ll ll ll ll
0 100 200 300
0.70 0.75 0.80 0.85
NMI (iris)
Nb. Contraintes
Nmia
l
l
l
l l
l
l
l
l
l l
l
l
l
l l
l
l
l
l l
l
l
l
l l
l
l
l
l l
l
l
l
l l l
l
l
ll ll ll lll lll lll
0 100 200 300
0.0 0.2 0.4 0.6 0.8
NMI (iris)
Nb. Contraintes
Nmia
l
l
l
l l
l
l
l
l
l
l
l
l l
l l
l
l
l
l l
l
l l l
l
l l
l l
l
l l
l l l l
l
l
l l l
l l l l l l 0 100 200 300
0.60 0.65 0.70 0.75 0.80 0.85
NMI (iris)
Nb. Contraintes
Nmia
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l l
l
l
l l l
l
l
l
l l l
l
l
l l l
ll ll ll ll ll ll
FIGURE 3.23 — Comparaison des approches BOC, UZABOC, ADAUZABOC et BC sur le jeu Iris centré.
Impact du pré-traitement des données sur l’efficacité des approches
Les différents comportement ont également été observés selon différents pré-traitements.
Les résultats de la figure 3.15 à la figure 3.18 représentent le cas où les données sont centrées
et réduites, alors que les résultats de la figure 3.23 à la figure 3.26 correspondent aux données
centrées uniquement. L’opération de centrage des variables ou attributs est nécessaire de par
la modélisation considérée du problème et la formalisation du critère de l’ACP. L’opération de
réduction des variables à une variance unitaire avant tout traitement de type ACP permet de
rétablir une équité entre les différentes variables. Cependant, si les variables de variance élevée
sont très discriminatives, au sens ou la dispersion des individus selon ces variables permettent
de retrouver naturellement les classes d’individus, alors il peut être bon de conserver davantage
l’information portée par elles dans la définition de la nouvelle représentation optimale sur
laquelle effectuer le clustering.
3.8. ÉVALUATION 141
0 200 400 600 800 1000 1200
64 65 66 67 68 69 70 71
PWF (parkinson)
Nb. Contraintes
Fs
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l l
l
l
l l l
l
l l l
ll ll ll ll ll ll
0 200 400 600 800 1000 1200
55 60 65 70
PWF (parkinson)
Nb. Contraintes
Fs
l
l l
l
l
l l
l
l
l
l
ll llll ll ll ll ll
0 200 400 600 800 1000 1200
68 70 72 74 76
PWF (parkinson)
Nb. Contraintes
Fs
l
l
l
l
l
l
l
l
l
l
l
l
l l
l l l
l l
ll llll ll ll ll ll
0 200 400 600 800 1000 1200
0.04 0.06 0.08 0.10
NMI (parkinson)
Nb. Contraintes
Nmia
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l
l
l
l
ll l l l ll ll
l
ll ll ll 0 200 400 600 800 1000 1200
0.01 0.02 0.03 0.04 0.05 0.06 0.07
NMI (parkinson)
Nb. Contraintes
Nmia
l
l
l l
l
l
l
l
l
l
l
l
l
l l l l
l
ll ll ll ll ll ll
0 200 400 600 800 1000 1200
0.00 0.02 0.04 0.06 0.08
NMI (parkinson)
Nb. Contraintes
Nmia
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l l
l
l
ll ll ll ll ll ll
FIGURE 3.24 — Comparaison des approches BOC, UZABOC, ADAUZABOC et BC sur le jeu Parkinson
centré. Celles-ci sont évaluées selon le F-score (en haut) et l’information mutuelle normalisé (en bas)
pour KM, SC et CLINK (dans l’ordre, de gauche à droite).
0 100 200 300 400 500
60 65 70 75 80
PWF (wine)
Nb. Contraintes
Fs
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l
l
l l l l
ll llll lll ll ll ll
0 100 200 300 400 500
60 65 70 75 80 85 90
PWF (wine)
Nb. Contraintes
Fs
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l
l
l
l
l l
l
l l l
ll ll ll ll ll ll
0 100 200 300 400 500
50 55 60 65 70 75 80 85
PWF (wine)
Nb. Contraintes
Fs
l
l
l
l l
l
l
l
l
l l
l
l
l l
l l
l
l
l
l l
l l l
l l
l l l
l l
l
l l
ll ll ll ll ll ll
0 100 200 300 400 500
0.40 0.45 0.50 0.55 0.60 0.65 0.70
NMI (wine)
Nb. Contraintes
Nmia
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l
l
l l l l
l
ll llll lll ll ll ll
0 100 200 300 400 500
0.4 0.5 0.6 0.7 0.8
NMI (wine)
Nb. Contraintes
Nmia
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l
l
l
l
l l
l
l l l
ll ll ll ll ll ll
0 100 200 300 400 500
0.1 0.2 0.3 0.4 0.5 0.6 0.7
NMI (wine)
Nb. Contraintes
Nmia
l
l
l
l
l
l
l
l
l
l
l
l
l l l
l l l l
l l l l l l
l l l l ll ll ll ll ll ll
FIGURE 3.25 — Comparaison des approches BOC, UZABOC, ADAUZABOC et BC sur le jeu wine centré.
142CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES
0 2000 4000 6000 8000
70 75 80 85
PWF (wdbc)
Nb. Contraintes
Fs
l
l
l
l
l
l
l
l
l
l
l
l
ll ll ll ll ll ll
0 2000 4000 6000 8000
66 68 70 72 74
PWF (wdbc)
Nb. Contraintes
Fs
l l l l l l l
l l l l l ll llll ll ll ll ll
0 2000 4000 6000 8000
55 60 65 70
PWF (wdbc)
Nb. Contraintes
Fs
ll ll ll ll ll lll
0 2000 4000 6000 8000
0.3 0.4 0.5 0.6
NMI (wdbc)
Nb. Contraintes
Nmia
l
l
l
l
l
l
l
l
l
l
l
l
ll ll ll ll ll ll
0 2000 4000 6000 8000
0.0 0.1 0.2 0.3 0.4
NMI (wdbc)
Nb. Contraintes
Nmia
ll lll lll lll lll llll
0 2000 4000 6000 8000
0.02 0.04 0.06 0.08 0.10
NMI (wdbc)
Nb. Contraintes
Nmia
l
l l
l
l
l
l
l l
l
l
l
ll ll ll ll ll ll
FIGURE 3.26 — Comparaison des approches BOC, UZABOC, ADAUZABOC et BC sur le jeu WDBC centré.
3.9 Discussion
Les contributions BOC , UZABOC et ADAUZABOC reprennent les travaux de [Liu et al., 2007]
sur le développement de BC, et proposent des extensions afin de respecter les différentes propriétés
introduites : la cohérence et la consistance. L’analogie entre BOC et BC permet d’argumenter
sur les différentes possibilités pour réaliser un boosting d’un algorithme quelconque de
clustering en vue d’en améliorer la performance. Une similitude forte a ensuite été dégagée entre
BOC et UZABOC, et sa variante adaptative ADAUZABOC. Cependant, ces dernières permettent
de s’abstraire d’un processus de fusion finale indispensable aux approches orientées boosting.
Ceci est dû notamment au fait que la normalisation de la distribution de poids dans ces approches
est telle qu’accentuer la satisfaction d’une partie des contraintes utilisateurs implique
un relâchement des autres contraintes. Le méta-algorithme BOC souffre alors dans ce contexte
d’un problème d’oscillation dans la satisfaction des contraintes et s’en remet à la décision finale
modulée par les différents paramètres de confiance.
Les différentes approchent ont le défaut d’être limitées par le fait qu’une projection linéaire
est réalisée pour déterminer à chaque étape la représentation optimale. Dans le cas général,
il peut exister des contraintes CL impliquant des individus se situant entre d’autres individus
impliqués eux dans une contrainte ML, et tels que tous ces individus soient alignés. Un tel
scénario rend la satisfaction des contraintes impossible car aucun sous espace ne peut rapprocher
les individus ML sans rapprocher les individus CL. Ainsi, la grande majorité des algorithmes
de clustering, si ils parviennent à regrouper ces individus ML regrouperont alors les individus
CL. Une perspective envisageable serait de réaliser une projection non linéaire de l’ensemble
des individus. Néanmoins cette solution est en général plus coûteuse au sens de la complexité
algorithmique.
3.10. CONCLUSION 143
3.10 Conclusion
Ce chapitre a permis de présenter la problématique du clustering semi-supervisé. Un historique
des différentes approches clés a été développé avant de présenter le socle des contributions
proposées. Celles-ci se fondent sur l’approche BC proposée par [Liu et al., 2007] et proposent de
l’étendre en introduisant des propriétés devant être satisfaites par les approches de type métaalgorithme
indépendantes de tout algorithme de clustering. L’approche BOC fondée sur le boosting
se rapproche de BC et permet de trouver un ensemble de solutions de clustering satisfaisant
chacune au mieux une partie des contraintes. Différentes procédure de décision du clustering
final ont été proposées afin de combiner ces différents résultats. L’approche UZABOC est plus
élégante puisqu’elle permet, au travers d’une procédure d’optimisation numérique convergente,
de déterminer à chaque étape une nouvelle représentation meilleure que la précédente. Les
choix de modélisation proposés ont été éprouvés empiriquement, et des résultats prometteurs
ont été obtenus notamment avec la variante ADAUZABOC. Ces diverses contributions ne sont pas
sans défauts et des améliorations pourront leur être apportées. Cependant, afin de résoudre les
différents problèmes liés à la multiplicité des données autour du clustering, l’approche ADAUZABOC
a été retenue pour être utilisée dans le cadre du clustering collaboratif, proche du clustering
ensemble ou consensus de partition, ainsi qu’au problème de recherche de clustering alternatifs.
Ces différentes problématiques sont traitées simultanément dans la prochaine partie.
Classification non supervisée 4
collaborative
Sommaire
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
4.2 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
4.3 Approches de type ensemble de clusterings . . . . . . . . . . . . . . . . . . . 149
4.3.1 Clustering consensus par ensemble de clusterings . . . . . . . . . . . . . 149
4.3.2 Consensus de partitions . . . . . . . . . . . . . . . . . . . . . . . . . . 151
4.4 Approches collaboratives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
4.4.1 SAMARAH : système d’apprentissage multi-agents de raffinement automatique
de hiérarchies . . . . . . . . . . . . . . . . . . . . . . . . . . 154
4.4.2 MOCLE : clustering d’ensemble multi-objectif . . . . . . . . . . . . . . 156
4.5 Approches alternatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
4.5.1 COALA : clustering hiérarchique alternatif . . . . . . . . . . . . . . . . 158
4.5.2 ADFT : apprentissage de distance alternative . . . . . . . . . . . . . . 160
4.5.3 CAMI : estimation d’un mélange de modèles alternatifs . . . . . . . . . 161
4.6 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
4.6.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
4.6.2 COBOC : boosting collectif et collaboratif pour la recherche de consensus166
4.6.3 ALTERBOC : boosting collectif et collaboratif pour la recherche d’alternatives
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
4.7 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
4.7.1 Protocole expérimental . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
4.7.2 Évaluation interne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
4.7.3 Évaluation externe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
4.8 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
4.9 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
146 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
4.1 Introduction
Ce chapitre introduit de nouvelles techniques pour obtenir un ou plusieurs regroupements
d’individus décrits par plusieurs représentations, les approches COBOC et ALTERBOC. Ces algorithmes
ont pour objectif de répondre à deux problématiques duales :
– COBOC pour le clustering d’ensemble et le clustering collaboratif, ou la recherche d’une
partition, ou de plusieurs partitions consensus à partir d’un ensemble (appelé aussi profil)
de partitions ;
– ALTERBOC pour l’alternative clustering ou la recherche de plusieurs partitions optimales,
de bonne qualité et dissimilaires entre elles.
Dans un premier temps les approches typiques pour la résolution de ces problématiques
sont présentées ainsi que les principes de base régissant les différentes contributions proposées.
Dans un second temps, ces dernières seront détaillées. Elles sont fondées sur une forme
de co-apprentissage (co-training) pour l’apprentissage simultané de solutions de clusterings répondant
à ces problématiques. Le co-apprentissage est maîtrisé et mené via un partage d’informations
entre les algorithmes de clusterings appliqués localement. Ce partage est réalisé au
travers d’heuristiques de génération de contraintes puis d’intégration de celles-ci dans chacun
des algorithmes de clustering réalisant leur tâche locale, dont le coeur correspond à l’approche
ADAUZABOC développée au chapitre 3.
L’objectif des approches de clustering ensemble étendues au cadre multi-vues est de produire
une unique partition à partir d’un ensemble d’individus munis d’un ensemble de représentations.
Cette partition correspond à une recherche de consensus entre plusieurs partitions locales, obtenues
naturellement dans chaque vue par un algorithme de clustering adapté. La notation suivante
permet de comprendre les formalismes des différentes approches proposées :
NOTATION
n : le nombre d’individus à regrouper.
n(r)
p : le nombre d’attributs décrivant les individus dans la vue r.
nk : le nombre de groupes à identifier.
nc : le nombre de classes associé aux données.
X = fx1; :::; xng : l’ensemble des n individus à partitionner.
X(r) 2 Rn_n(r)
p : la représentation matricielle de X dans la vue r.
x(r)
i 2 Rn(r)
p : la représentation vectorielle de l’individu xi dans la vue r.
C = fC1; :::;Cnkg : la structure de clustering en nk groupes à construire.
_ = fC(1); :::;C(nr)g : l’ensemble des nr clusterings locaux dans chaque vue.
C(r) = fC(r)
1 ; :::;C(r)
nk g : l’ensemble des nk groupes du clustering dans la vue r.
C = fC1; :::; Cncg : l’ensemble des nc classes d’individus à retrouver.
D = fD0; :::;Dng : la structure de dendrogramme associée aux données.
d(r)(xi; xj) : la distance au sens général entre deux individus xi et xj dans r.
jjx(r)
i x(r)
j jjp : la distance de Minkowski entre deux individus xi et xj dans r.
ML(r) : l’ensemble des (xi; xj) 2 X2 devant être regroupés dans r.
CL(r) : les (xi; xj) 2 X2 devant être séparés dans r.
A(r) : l’algorithme de clustering employé pour obtenir C(r).
Link(r)(xi; xj) : xi et xj sont regroupés par A(r) ou dans C(r).
Link
(r)
(xi; xj) : xi et xj sont séparés par A(r) ou dans C(r).
H(r) 2 f0; 1gn_n : la matrice de clustering associée à C(r)
4.2. CONTEXTE 147
4.2 Contexte
le clustering d’ensemble
La problématique du clustering d’ensemble peut être définie ainsi : À partir d’un ensemble
de partitions d’un même ensemble d’individus X, trouver une partition consensus de l’ensemble
d’individus. Le partition consensus est telle qu’elle doit être proche de chaque élément du profil
(ou de l’ensemble) de partitions donné. Les algorithmes de la famille clustering d’ensemble ou
consensus clustering visent simultanément plusieurs objectifs :
la réutilisation des connaissances et des outils de clustering existants lorsque d’une part on
a à disposition plusieurs clusterings concernant l’ensemble d’individus X (émanant potentiellement
de plusieurs vues différentes) que l’on souhaite utiliser sans réanalyser les données,
et les combiner pour obtenir une solution plus robuste. D’autre part, si les clusterings
ne sont pas connus, il est possible d’utiliser les algorithmes existants sur plusieurs vues
des données, contenant un ensemble plus petits de descripteurs, et pour lesquelles les
algorithmes classiques employés ont prouvé leur efficacité (KM, SOM, DBSCAN, etc.) ;
la décentralisation des calculs concerne le cas où les données sont effectivement décentralisées,
i.e. réparties sur plusieurs sites. Dans ce contexte il peut être préférable d’effectuer
les clusterings en parallèle sur chaque site, notamment si il n’est pas possible de réunir les
différentes parties des données à analyser en raison de limites de stockage ou de réseau.
le respect de la confidentialité des données notamment lorsque les données sont décentralisées
selon les variables descriptives ou attributs. Dans ce contexte, il est important
que chaque partie des variables ne soit observée que par l’algorithme de clustering local
employé, et inaccessible des autres algorithmes de clusterings. Seul l’information local
d’appartenance des individus aux groupes peut alors être utilisé pour obtenir une solution
consensus.
La littérature est marquée par la proposition de [Strehl and Ghosh, 2003] qui a permis de
bien resituer la problématique du clustering d’ensemble dans les contextes applicatifs récents tels
que présentés précédemment. La thématique a été par ailleurs considérablement étudiée et les
approches, enrichies [Vega-Pons and Ruiz-Shulcloper, 2011]. En réalité le problème tel qu’il est
formulé, est adressé depuis bien plus longtemps, notamment par la communauté francophone
et les travaux de Simon Régnier [Regnier, 1965] sur la recherche de partition médiane. Ces
travaux ont également été réactualisés par la même communauté au travers par exemple, la
contribution de [Guénoche, 2011].
le clustering collaboratif
Différents chercheurs se sont également intéressés au problème semblable mais dont on peut
faire la distinction du clustering collaboratif pour lequel on s’autorise à modifier les différents
clusterings de base du profil afin de les enrichir et d’améliorer leur qualité en les combinant,
comme l’ont proposé [Wemmert et al., 2000]. Enfin, d’autres approches ont été développées
dans le même esprit afin d’obtenir un ensemble de clusterings consensus en combinant les différents
clusterings de base, tout en assurant une certaine dissimilarité entre les clusterings de l’ensemble
produit [Faceli et al., 2009]. Cette dernière approche notamment permet d’introduire la
deuxième problématique à laquelle les contributions de ce chapitre apportent une solution :
l’alternative clustering.
l’alternative clustering
La problématique de l’alternative clustering est la suivante : À partir d’un tableau relationnel
ou descriptionnel sur l’ensemble d’individu X, trouver un ensemble de clusterings de X tel que :
148 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
X(1)
X(r)
X(nr )
A(1)
A(r)
A(nr )
C(1)
C(r)
C(nr )
Γ
C
X(1)
X(r)
X(nr )
A(1)
A(r)
A(nr )
C(1)
C(r)
C(nr )
Γ
C
X
A(1)
A(r)
A(nr )
C(1)
C(r)
C(nr )
Γ-1
FIGURE 4.1 — Les différents paradigmes du clustering d’ensemble, clustering collaboratif et alternative
clustering. Dans l’ordre ci-dessus, (1) la recherche d’un clustering consensus (contrôlée par une fonction
ou un algorithme de consensus ) à partir d’un ensemble de clusterings issus d’algorithmes quelconque
A(r), (2) la recherche d’un clustering consensus à partir d’un mécanisme de collaboration remettant
en cause les différents clusterings des données et enfin (3) la recherche d’un ensemble de clusterings
alternatifs contrôlé par une stratégie (fonction ou algorithme) de divergence 1, à partir d’un jeu de
donnée mono-vue.
– chaque clustering soit de bonne qualité, au sens d’une mesure de qualité usuelle (inertie
de KM, vraisemblance pour EM, etc.) ;
– chaque clustering soit dissimilaire des autres au sens d’une mesure de similarité ou dissimilarité
particulière.
Les algorithmes de la famille alternative clustering ont pour objectif d’offrir à un utilisateur
un plus vaste choix de résultats pour l’analyse exploratoire dans un contexte purement applicatif.
Ces approches permettent également d’identifier des structures de groupes différentes et
potentiellement intéressantes dans l’analyse de données de grande dimensionnalité.
Les approches se sont majoritairement développées ces dernières années et utilisent des principes
aussi vaste que pour le clustering simple. Les approches proposées reposent sur des adaptations
d’algorithmes de clustering hiérarchique [Bae and Bailey, 2006], de modèles de mélanges
[Dang and Bailey, 2010] ou bien encore sur des techniques indépendantes de l’algorithme de
clustering en réalisant un apprentissage de distance adapté [Davidson and Qi, 2008].
Les différentes contributions proposées répondant aux problématiques peuvent être schématisés
comme dans la figure 4.1. Les contributions proposées sont des instanciations particulières
d’une plateforme générale permettant la combinaison d’algorithmes de clusterings et capable de
déterminer :
– un clustering consensus pour des données multi-vues, ou pour des données mono-vue explorées
par des algorithmes différents ainsi qu’un ensemble de distances adaptées ou différentes
combinaison linéaires des variables descriptives des données permettant d’atteindre
ce consensus ;
– un ensemble de clusterings alternatifs pour un jeu de données mono-vue, ou éventuellement
multi-vues, ainsi que les distances ou combinaisons linéaires des variables descriptives
correspondantes.
L’approche proposée est générique et ne nécessite pas de connaître les algorithmes de clusterings
employés. De plus, contrairement à la quasi-intégralité des méthodes présentées précédemment,
elle exploite les représentations vectorielles des individus lorsqu’elles sont disponibles. Enfin,
elle se décline en deux versions, COBOC et ALTERBOC répondant aux deux problématiques
posées.
4.3. APPROCHES DE TYPE ENSEMBLE DE CLUSTERINGS 149
4.3 Approches de type ensemble de clusterings
4.3.1 Clustering consensus par ensemble de clusterings
L’approche de clustering ensemble (CE) [Strehl and Ghosh, 2003] est une approche algorithmique,
conçue pour obtenir un clustering unique consensus à partir d’un profil de partitions
_ = fC(r)gr2[1::nr] d’un même ensemble d’individus X. Les auteurs proposent à la fois une
mesure de comparaison entre clusterings fondée sur des éléments de théorie de l’information :
l’information mutuelle normalisée, qu’un moyen heuristique d’optimiser un critère reposant sur
cette comparaison pour trouver le clustering consensus .
Objectif
L’objectif est de construire un clustering C_ des individus, le plus proches possible de chaque
partition du profil _, au sens de l’information mutuelle normalisée (cf. section 1.5.3.2) :
C_ = arg max
C
QCE(C; _)
Avec
QCE(C; _) =
1
nr
Xnr
r=1
NMI(C;C(r))
Soit l’heuristique permettant de trouver un optimum du critère précédent. Les auteurs
proposent trois heuristiques différentes correspondant à : CSPA, HGPA et MCLA. Ceux-ci
détermine l’algorithme appliqué (algorithme 27).
Algorithme
CSPA. La première heuristique développée consiste à compter en moyenne pour chaque paire
d’individu (xi; xj) 2 X2, le nombre de fois où ceux-ci sont regroupés parmi toutes les partitions
disponibles. Ainsi, les valeurs obtenues sont comprises entre 0 et 1 et la fonction associée se
comporte comme une mesure de similarité K, une forte valeur de Kij correspondant au fait
que xi et xj soient fréquemment regroupés dans les différents clusterings du profil. Soit H(r) la
matrice du r-ième clustering, la fonction K de similarité ainsi produite est définie par :
K(r) =
1
nr
Xnr
r=1
H(r)
Une fois ces valeurs de similarité établies entre les individus, les auteurs proposent d’appliquer
un algorithme de clustering adapté capable de produire un unique clustering à partir
d’une matrice de similarité, comme l’algorithme METIS [Karypis and Kumar, 1998], adapté au
partitionnement de graphes en groupes de tailles homogènes.
HGPA. La seconde heuristique développée propose de construire un hyper-graphe à partir des
différentes partitions. Dans chaque partition, chaque groupe C(r)
k correspond à une hyper-arête
qui relie simultanément les individus membres de ce groupe. Dans l’hyper-graphe, un individu xi
est alors relié via r hyper-arêtes, à nr groupes potentiellement différents. L’objectif de HGPA est
alors, à partir de l’hyper-graphe, d’identifier un nombre minimal d’hyper-arêtes à enlever afin de
déconnecter l’hyper-graphe en nk groupes disjoints, éliminant ainsi les recouvrements induits
par l’appartenance de certains individus à des groupes différents dans chaque vue. Ce problème
est résolu via les approches de clustering d’hyper-graphe. Les auteurs proposent d’utiliser pour
ce faire l’algorithme HMETIS.
150 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
MCLA. La dernière heuristique proposée correspond à une approche algorithmique de clustering
de groupes. L’objectif est d’identifier parmi les différents groupes présents dans toutes
les partitions ceux qui sont proches, et de les regrouper par clustering afin de déterminer globalement
les k meta-groupes les plus représentatifs. De plus, les auteurs proposent un moyen
de définir pour chaque meta-groupe Mk ainsi déterminé et chaque individu xi de ce groupe, la
contribution de xi à la définition de Mk.
De manière plus détaillée, l’approche MCLA est séparable en quatre étapes que sont :
1. La construction d’un meta-graphe, dans lequel les sommets correspondent aux différents
groupes C(r)
k présents dans les différentes partitions C(r) et les arêtes reflètent une similarité
entre groupes. La similarité proposée par les auteurs est l’indice de Jaccard (1.20)
qui mesure, dans ce contexte, pour deux groupes donnés C(r)
k et C(r)
k0 (deux sommets), la
proportion de paires d’individus présents simultanément dans ces deux groupes :
K(C(r)
k ;C(r0)
k0 ) = Jaccard(C(r)
k ;C(r0)
k0 )
En particulier, les clusterings C(r) étant supposés stricts, on a l’égalité suivante :
K(C(r)
k ;C(r0)
k0 ) = 0 8r 2 [1::nr]; 8k 6= k0
2. Le clustering du meta-graphe permet quant à lui d’identifier k meta-groupes représentatifs
des différents groupes des individus issus de toutes les partitions du profil. L’idée étant
d’identifier la correspondance entre les groupes dans les différentes partitions. En ce sens,
deux groupes en forte correspondance issus de deux partitions différentes devraient appartenir
à un même meta-groupe. Cette correspondance est directement déduite de la mesure
de Jaccard et le clustering est réalisé au moyen de l’algorithme METIS. On obtient alors un
meta-clustering M qui est une partition de l’ensemble
S
r2[1::nr] C(r).
3. La consolidation des meta-groupes permet de redéfinir ces meta-groupes proprement comme
des meta-hyper-arêtes correspondantes aux différents groupes du meta-groupe (la consolidation
est réalisée par ajout d’hyper-arêtes). Chaque meta-groupe Mk est associé à un
vecteur de contributions des individus xi 2 X à la définition de ce meta-groupe. Soit
H(r) 2 f0; 1gn_nk la matrice indiquant pour chaque individu xi le groupe auquel il appartient
:
H(r)
ik =
(
1 si xi 2 C(r)
k
0 sinon
Cette contribution uik de l’individu xi au meta-groupe Mk est obtenue par :
uik =
1
nrjMkj
Xnr
r=1
X
C(r)
k0 2Mk
Z(r)
ik0
4. L’affectation des individus afin d’obtenir le clustering consensus C final est réalisée selon
les valeurs de contributions déterminées à l’étape précédente. Ainsi, si l’on s’autorise à
interpréter les valeurs de contributions comme des probabilités a posteriori, la règle MAP
est alors appliquée. Autrement dit les individus sont effectivement affectés au meta-groupe
pour lequel sa contribution est la plus importante :
xi 2 Ck , k = arg max
k02[1::nk]
uik0
4.3. APPROCHES DE TYPE ENSEMBLE DE CLUSTERINGS 151
Enfin, les auteurs proposent de définir, pour une meilleure interprétabilité des résultats, une
confiance pour chaque affectation des individus. Ainsi cette confiance s’exprime comme la valeur
de contribution au groupe auquel l’individu est affecté, relativement à toutes les autres valeurs
de contribution de cet individu :
_i =
uik
Xnk
k=1
k6=k
uik
8xi 2 Ck
Algorithme 27 CE
ENTRÉES : X, nk,
SORTIES : C = fC1; :::;Cnkg
1 : Génération de fC(r)gr2[1::nr] par nr clusterings différents de X
2 : C = (fC(1)
1 ; : : : ;C(1)
n(1)
k
; : : : ;C(nr)
1 ; : : : ;C(nr)
n(nr)
k
g)
Discussion
L’apport de l’approche de clustering ensemble réside essentiellement dans les heuristiques de
combinaisons de partitions. MCLA semble correspondre au meilleur compromis entre la qualité
du consensus obtenu au sens de l’information mutuelle normalisée et l’efficacité au sens de la
complexité algorithmique (O(n:n2
k:n2r
)). L’heuristique HGPA est la plus efficace en complexité
algorithmique (O(n:nk:nr)) mais peine à être efficace dans l’obtention d’une solution consensus.
CSPA est l’heuristique la plus complexe (O(n2:nk:nr)) mais est aussi efficace que MCLA et offre
une flexibilité dès lors que l’on s’autorise à utiliser un autre algorithme de clustering que METIS.
Finalement l’inconvénient majeur que l’on peut formuler est que les clusterings de l’ensemble
ne sont jamais remis en question pour faciliter l’obtention d’une meilleure solution consensus
et les heuristiques proposées n’utilisent pas, même localement les variables descriptives si elles
existent.
4.3.2 Consensus de partitions
Parmi les premières approches cherchant à obtenir un clustering consensus à partir d’un
ensemble de clusterings ou partitions de base figurent celles dédiées à la problématique de partition
médiane ou partition centrale. Cette problématique fut étudiée très tôt dans la communauté
francophone de classification notamment par Simon Régnier [Regnier, 1965] et reprise et développée
plus récemment dans les travaux d’Alain Guénoche [Guénoche, 2011].
Objectif
Le problème est posé comme la recherche d’une solution optimale à un problème d’optimisation
défini informellement comme la recherche d’un nouveau clustering des individus proche,
selon une mesure de similarité S particulière, de tous les clusterings présents dans l’ensemble.
Formellement le clustering consensus est défini comme l’optimum du critère objectif :
max
C
Q0
FT(C; _) = max
C
Xnr
r=1
S(C;C(r)) (4.1)
152 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
où S(C;C(r)) = n(n1)
2 j_(C;C(r))j et _(C;C(r)) est la distance des différences symmétriques
entre les clusterings C et C(r). Soit H(r) la matrice des résultats du r-ième clustering de
l’ensemble (que l’on supposera être le résultat d’un algorithme A(r)) :
H(r)
ij =
(
1 si Link(r)(xi; xj)
0 si Link
(r)
(xi; xj)
(4.2)
Soit H la matrice des hypothèses du clustering consensus en construction, la distance des
différences symmétriques revient à compter le nombre de paires d’individus (xi; xj) 2 X2 pour
lesquelles les hypothèses de clusterings Hij et H(r)
ij sont différentes. Le critère (4.1) est équivalent
en maximisation au critère QFT défini par :
QFT(H) = Hij
X
(xi;xj )2X2
Xnr
r=1
H(r)
ij
!
nr
2
!
(4.3)
(4.4)
Soit Wij =
Xnr
r=1
H(r)
ij
!
nr
2
!
, le problème d’optimisation peut alors être posé :
max
H
QFT(H) = max
H
X
(xi;xj )2X2
i_j
HijWij
s:c: Hij 2 f0; 1g 8(xi; xj)i_j 2 X2
Hij + Hjk Hik _ 1 8(xi; xj ; xk)i6=j6=k 2 X3
(4.5)
Algorithme
Les auteurs proposent de résoudre ce problème par un algorithme adapté (algorithme 28),
FUSION-TRANSFERT (FT), composé de deux étapes. L’étape de fusion fait appel à une heuristique
et s’inspire du principe de classification ascendante hiérarchique AGNES (cf. section 1.2.2)
pour lequel le critère d’arrêt n’est pas l’obtention de la partition à 1 groupe contenant tous
les individus, mais l’atteinte d’une partition maximale selon le critère QFT. Ainsi, partant de
la partition atomique correspondant à l’ensemble des singletons d’individus, le principe est de
fusionner à chaque étape les deux groupes ou amas tels que l’amélioration du critère soit maximum.
Partant de Ai = fxig et D0 = fAigi2[1::n]. D est la structure de dendrogramme associée à
la classification hiérarchique.
Soit W(Ak) =
P
(xi;xj )2A2
k
Wij , et soit un clustering de X en nk amas, le critère QFT peut
alors être réécrit :
QFT(A1; : : : ;Ank ) =
Xnk
k=1
W(Ak) (4.6)
Soit _i l’ensemble des paires d’amas candidates pour la fusion :
_i = f(Ak;Ak0) 2 D2
i1 j (W(Ak [ Ak0) (W(Ak) +W(Ak0))) _ 0g
_i est l’ensemble des paires d’amas de Di1 qui apporte un gain au critère QFT. La règle
permettant d’obtenir le clustering correspondant à Di et maximisant QFT est la suivante :
(Ak;Ak0) = arg max
(Al;Al0 )2_i
W(Al [ Al0) ) Di = Di1 n (Ak;Ak0) [ fAk [ Ak0g (4.7)
4.3. APPROCHES DE TYPE ENSEMBLE DE CLUSTERINGS 153
Ce principe de fonctionnement est simple et en général efficace, mais il souffre du problème
bien connu des approches de classification hiérarchique qui est la non remise en cause des
fusions réalisées.
Pour outre-passer ce défaut et améliorer la qualité de la partition consensus, l’étape de transfert
propose de déplacer certains éléments susceptibles d’améliorer QFT. On calcul pour ce faire
un nouveau poids uik pour chaque individu xi et chaque groupe Ck déterminé à l’issue du processus
de fusion, selon l’équation suivante :
uik =
X
xj2Ck
Wij (4.8)
Ainsi uik modélise bien la contribution de l’individu xi au groupe Ck. En particulier, si xi 2
Ck, uik correspond à la contribution de xi à la valeur du critère QFT. De la même façon, on
définit pour chaque individu xi 2 Ck un gain de transfert _ de Ck à Ck0 par la formule :
_(xi;Ck;Ck0) = uik0 uik (4.9)
La procédure de transfert consiste alors à déplacer parmi tous les individus, celui qui maximise
le plus son éventuel gain de transfert, dont les différents paramètres optimaux sont définis
formellement par :
(C_
k ; C_
k0 ; x_i
) = arg max
(k;k0)2[1::nk]2; xi2Ck
_(xi;Ck;Ck0) (4.10)
Ainsi deux cas peuvent se produire :
– le gain maximum de transfert est positif ou nul, auquel cas on transfère effectivement
l’individu x_i
du groupe C_
k au groupe C_
k0 :
_(x_i
;C_
k ;C_
k0) _ 0 )
_
(C_
k = C_
k n fx_ig) ^ (C_
k0 = C_
k0 [ fx_i
g)
__
(4.11)
– le gain maximum de transfert est négatif, auquel cas on transfère l’individu x_i
du groupe
C_
k à un nouveau groupe Ck00 :
_(x_i
;C_
k ;C_
k0) < 0 )
_
(C_
k = C_
k n fx_i
g) ^ (Ck00 = fx_i
g)
__
(4.12)
Algorithme 28 FT
ENTRÉES : X, fC(r)gr2[1::nr]
SORTIES : C = fC1; :::;Cnkg
1 : Initialiser Ai = fxig et D0 = fAigi2[1::n]
2 : Application AGNES sur X en utilisant la règle (4.7) pour obtenir C
3 : Déterminer (C_
k ; C_
k0 ; x_i
) selon (4.10)
4 : Transférer x_i
selon (4.11) ou (4.12)
Discussion
154 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
L’algorithme FT est une approche heuristique permettant d’atteindre un clustering consensus
formulé comme la recherche de la partition médiane de l’ensemble ou profil des clusterings de
base. L’approche a comme défaut de reposer sur un algorithme hiérarchique qui ne permet pas
à lui seul de corriger la construction d’une mauvaise hiérarchie menant à un mauvais clustering
au dernier niveau du dendrogramme mais atteignant un optimum du critère QFT. Ce défaut est
corrigé par la procédure de transfert, mais l’ensemble des deux procédures mène à une approche
complexe (O(nr:n2) + O(n3)).
À l’instar de CE, FT se place dans un cadre où les clusterings de base ne sont jamais remis
en question et de plus les variables descriptives des individus, si elles existent, ne sont pas
exploitées.
4.4 Approches collaboratives
4.4.1 SAMARAH : système d’apprentissage multi-agents de raffinement
automatique de hiérarchies
La méthode SAMARAH [Wemmert et al., 2000] est une approche essentiellement algorithmique
qui a pour objectif de trouver un consensus entre plusieurs méthodes de clustering à
travers un mécanisme contrôlé de collaboration entre ces différentes méthodes. L’objectif affiché
est l’amélioration de la robustesse d’une solution de clustering en minimisant l’impact du
choix d’une méthode de clustering particulière ou de ses paramètres.
Algorithme
SAMARAH (algorithme 29) repose sur différentes étapes :
– la génération de clusterings initiaux qui consiste à obtenir différents clusterings à partir
d’un même jeu de données. Les auteurs proposent dans leur contexte d’appliquer différentes
méthodes de clusterings ou une même méthode de clustering avec des paramètrages
différents ;
– le raffinement des résultats qui a pour but d’identifier des conflits et de les résoudre. Ces
conflits correspondent à des différences observées entre les clusterings produits, décidées
à partir de l’évaluation d’une similarité entre ces derniers. À l’issue du raffinement, les
différentes partitions sont supposées devenir plus similaires entre elles, et chacune peut
alors être considérée comme une partition consensus ;
– La combinaison des résultats qui cherche à déterminer une solution unique de clustering
à partir des différentes partitions raffinées. Cette étape correspond alors pleinement à la
problématique de clustering ensemble.
L’étape la plus importante est la seconde puisque c’est elle qui fait intervenir le mécanisme
de collaboration entre les différentes méthodes de clusterings. Les résultats de clustering et
les distributions des objets au sein des groupes des différents résultats sont comparés via les
matrices de confusion M 2 Nnk_nk pour tout couple de groupes issus de clusterings différents.
Cette matrice permet d’observer globalement les différences deux à deux entre clusterings. Elle
est définie par :
M(r)(r0)
kk0 =
jC(r)
k \ C(r0)
k0 j
jC(r)
k j
8(r; r0) 2 R2; 8(C(r)
k ;C(r0)
k0 ) 2 C(r) _ C(r0)
Les auteurs proposent d’utiliser cette matrice de confusion pour établir une mesure de similarité
entre deux groupes issus de clusterings différents. Cette mesure notée K est définie
4.4. APPROCHES COLLABORATIVES 155
par :
K(C(r)
k ;C(r0)
k0 ) = _(r)(r0)
k M(r0)(r)
k0k et _(r)(r0)
k =
n(r0)
Xk
k0=1
M(r)(r0)
kk0
Le choix d’une telle mesure de similarité permet de quantifier et d’ordonner les correspondances
entre les groupes issus de vues différentes. Notamment, étant donnés le k-ième groupe
du clustering C(r) et un clustering C(r0), il est possible de déterminer le meilleur correspondant
de C(r)
k parmi les groupes de C(r0) par :
f_(C(r)
k ;C(r0)) = arg max
C(r0)
k0 2C(r0)
K(C(r)
k ;C(r0)
k0 )
À partir de cette correspondance est définit le conflit. Si un groupe ne se retrouve pas complètement
dans un clustering, i.e. K(C(r)
k ; f_(C(r)
k ;C(r0))) < 1, alors il y a conflit. Cette règle
permet de définir un ensemble des conflits _ comme l’ensemble des couples (C(r)
k , C(r0)) tel que
le groupe C(r)
k ne soit pas en parfaite correspondance avec un des groupes du clustering C(r0) :
_ = f(C(r)
k ;C(r0))jr 6= r0 ^ K(C(r)
k ; f_(C(r)
k ;C(r0))) < 1g
Cet ensemble est muni d’une relation d’ordre pour former une liste qui est traité par l’algorithme
de résolution des conflits. La première stratégie proposée par les auteurs consiste à ordonner
les couples de l’ensemble par la valeur de similarité entre les groupes et leurs meilleurs
correspondants. Plus la similarité entre un groupe et son meilleur correspondant dans un autre
clustering est faible et plus le conflit est grand. La résolution de ces conflits a alors lieu dans un
processus itératif où chaque étape revient à apporter des modifications sur les différentes partitions
impliquées dans le conflit courant au travers l’application de trois opérateurs que sont :
– la fusion de groupes : les individus de deux groupes d’un même clustering sont réunis dans
un seul groupe ;
– la scission d’un groupe : un clustering est appliqué aux individus d’un groupe donné ;
– le reclustering : un groupe donné est retiré, et les individus de ce groupe sont réaffectés
aux autres groupes.
Le choix des opérateurs à appliquer est décidé à l’aide d’un paramètre _ supplémentaire
dépendant du nombre de groupes impliqués dans le conflit. En d’autres termes, pour un couple
conflictuel (C(r)
k ;C(r0)) donné, le paramètre dépend de la distribution des individus de C(r)
k dans
C(r0). Ainsi, si les valeurs de similarité caractérisant ce couple sont plus grandes que le paramètre
_ : K(C(r)
k ;C(r0)
k0 ) _ _ 8C(r0)
k0 2 C(r0), alors C(r0)
k0 est considéré comme un bon contributeur pour
la correspondance.
Si il n’y a pas de bons contributeurs pour le conflit (C(r)
k ;C(r0)) alors l’opérateur de reclustering
est appliqué sur C(r)
k . En revanche, soit m le nombre de bons contributeurs pour C(r)
k dans
C(r0), les auteurs proposent de construire les clusterings C0(r) et C0(r0) tels que :
– C0(r) corresponde à C(r) où le groupe C(r)
k est scindé en m;
– C0(r0) corresponde à C(r0) où les m bons contributeurs sont fusionnés.
Les auteurs proposent alors deux fonctions de qualité, non retranscrites ici, locale et globale
pour décider de l’application effective des opérateurs. La fonction de qualité locale, permet de
trouver la paire de clusterings optimale (C_(r);C_(r0)) parmi les paires (C(r);C(r0)), (C(r);C0(r0)),
(C0(r);C(r0)) et (C0(r);C0(r0)). La paire optimale obtenue implique une mise à jour des clusterings
correspondant. Cependant cette mise à jour n’est effective que selon le comportement de la
fonction de qualité globale. Ainsi :
156 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
– si la résolution locale (entre deux vues) du conflit améliore la qualité globale, alors la mise
à jour est réalisée et les conflits sont recalculés ;
– si (C_(r);C_(r0)) = (C(r);C(r0)), alors le conflit n’a pas d’intérêt et est retiré de la liste à
résoudre ;
– si la résolution locale du conflit déteriore la qualité globale, celui-ci est résolu, sous réserve
qu’une amélioration de la qualité globale soit observée au plus après la résolution de la
moitié des conflits restants.
Pour finir, et même si chaque partition raffinée est issue d’une procédure collaborative tendant
vers un consensus, une combinaison des résultats raffinés est réalisée par une procédure
de vote entre les différents algorithmes de clusterings locaux, sur le meilleur groupe correspondant
à chaque individu. Ceci afin d’obtenir une unique partition consensus, dans la suite des
approches de clustering d’ensemble.
Algorithme 29 SAMARAH
ENTRÉES : X, _
SORTIES : C = fC1; :::;Cnkg
1 : Générer nr clusterings fC(r)gr2[1::nr] à partir de X
2 : Raffiner itérativement chaque C(r) en résolvant les conflits
3 : C = V ote(fC(r)gr2[1::nr])
Discussion
L’approche SAMARAH, illustrative des approches de clustering collaborative, se distingue des
approches de type clustering ensemble par la remise en cause des partitions du profil via l’étape
de raffinement des résultats. L’approche permet de concilier plusieurs partitions en nombre de
groupes différents. Elle possède également les différents avantages des approches de clustering
ensemble que sont la réutilisation des connaissances, la décentralisation des calculs et le respect
de la confidentialité des données. Néanmoins, à l’instar des approches précédentes, elle n’utilise
pas les descriptions des individus lorsqu’elles sont disponibles. L’approche SAMARAH a
également été étendue dans le cadre de la thèse de [Forestier, 2010], par l’ajout de nouvelles
stratégies de résolution de conflits et également par la prise en compte de connaissances externes
pour guider la recherche d’un clustering consensus par semi-supervision.
4.4.2 MOCLE : clustering d’ensemble multi-objectif
L’approche multi-objectif pour le clustering ensemble MOCLE proposée par [Faceli et al., 2009]
vise à produire non pas un clustering consensus mais un ensemble de clusterings consensus. À
partir d’un ensemble de clusterings initiaux, les auteurs proposent d’appliquer un algorithme
génétique permettant de maintenir à chaque itération ou génération un tel ensemble de clusterings.
Il s’agit d’une approche principalement algorithmique (algorithme 30) qui se décline ainsi
en deux étapes que sont :
– la génération de partitions de base réalisée de la même manière que pour l’approche
SAMARAH;
– la recherche d’un ensemble de partitions consensus différentes réalisant chacune un compromis
particulier de plusieurs critères objectifs.
4.4. APPROCHES COLLABORATIVES 157
L’apport principal de cette approche réside dans la seconde étape qui fait appel à deux opérateurs,
croisement et sélection, permettant de faire évoluer la population de solutions potentielles
(les différentes partitions de base) vers l’objectif visé.
L’opérateur de croisement permet, à partir d’une paire de partitions de la population, d’obtenir
une nouvelle partition consensus. Les paires de partitions sont sélectionnées aléatoirement
selon le principe de tournoi binaire. Même si l’approche MOCLE vise à offrir un paradigme très
généraliste pour la production de plusieurs partitions consensus, il est nécessaire de spécifier effectivement
cet opérateur de croisement. Les auteurs proposent d’utiliser l’algorithme MCLA (cf.
section 4.3.1). Les nouvelles partitions sont alors ajoutées à la population existante.
Le deuxième opérateur a pour but de limiter la taille de la population, afin d’éviter de maintenir
une sous population de faible qualité. Ainsi les auteurs proposent de définir différents
critères permettant d’identifier les partitions de bonne qualité. L’opérateur de sélection consiste
à déterminer, parmi les partitions de la population, celles qui approximent le mieux le front de
Pareto correspondant aux optima de ces différents critères.
Les critères proposés pour évaluer chaque partition C(r) sont (1) l’inertie Q(r)
inrt (à minimiser)
ainsi que (2) sa connectivité Q(r)
con (à minimiser). L’inertie de la partition C(r) est définie comme
une somme des inerties intra-groupes par le critère correspondant à celui de KM :
Q(r)
inrt =
n(r)
Xk
k=1
X
xi2C(r)
k
jjx(r)
i c(r)
k jj22
(4.13)
La connectivité est mesurée en observant le nombre de fois ou deux individus voisins se
retrouvent dans un même groupe :
Q(r)
con =
X
xi2X
nX1
j=1
_(r)(xi;N(r)
j (xi)) (4.14)
où N(r)
j (xi) correspond au j-ième plus proche voisin de xi dans la partition C(r) et _(r) est définit
par :
_(r)(xi;N(r)
j (xi)) =
(
1
j si Link
(r)
(xi;N(r)
j (xi))
0 si Link(r)(xi;N(r)
j (xi))
Ainsi, la connectivité est nulle (minimale) lorsque tous les voisins de chaque individu (pour
un voisinage de taille arbitrairement grand) sont regroupés avec celui-ci i.e. lorsqu’il n’y a qu’un
seul groupe.
L’objectif est alors d’identifier parmi les partitions de la génération courante, celles qui optimisent
(minimisent) simultanément ces deux critères.
Discussion
On remarque que sans contraintes sur le nombre de groupes présents dans une partition
donnée, le critère inertiel Q(r)
inrt favorisera la solution dégénérée de partition atomique i.e. en
singletons, alors que le critère de connectivité Q(r)
con favorisera la solution dégénérée d’un seul
groupe contenant tous les individus. Néanmoins les auteurs proposent de contraindre la taille
des groupes notamment lors de l’application de l’opérateur de croisement, le nombre de groupes
158 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
Algorithme 30 MOCLE
ENTRÉES : X, tf
SORTIES : fC(r)gr2[1::nr]
1 : Générer nr clusterings fC(r)gr2[1::nr] à partir de X.t = 0
2 : Appliquer le croisement sur fC(r)gr2[1::nr]
3 : Augmenter fC(r)gr2[1::nr] avec les résultats du croisement
4 : Sélectionner les clusterings dominants au sens des critères (4.13) et (4.14)
5 : Si t < tf aller en 2
de la partition consensus obtenue devant être compris entre les valeurs des nombres de groupes
des partitions parentes sélectionnées lors du tournoi. On peut formuler néanmoins l’hypothèse
que les solutions optimales approximant le front de Pareto seront telles que les partitions de
nombre de groupes élevé seront favorisées par le terme d’inertie et inversement les partitions en
faible nombre de groupe seront favorisées par le terme de connectivité, dans une autre région du
front. Pour finir, sous l’hypothèse que deux clusterings issus de deux régions différentes du front
(approximant des optimums différents des critères) sont des solutions de clustering différentes,
alors MOCLE permet l’obtention de partitions alternatives entre elles. Ceci permet d’élargir
l’analyse exploratoire pour diversifier l’interprétation des résultats. La problématique spécifique
de la recherche de partitions alternatives est l’objet de la prochaine section.
4.5 Approches alternatives
Le but des approches de clustering alternatif est d’obtenir un ensemble de clusterings en adéquation
avec la distribution naturelle des individus et différents les uns par rapport aux autres.
La première condition est appelée critère de qualité et le second est un critère de dissimilarité.
Ainsi le compromis recherché (à maximiser) peut être exprimé simplement sous la forme
générale suivante :
clustering alternatif =
Xnr
r=1
objectif local(r) + désaccord(_) (4.15)
La forme générale laisse apparaître un formalisme proche du clustering multi-vues (2.1),
mais cette fois le désaccord est recherché et donc, à maximiser et non pas à minimiser.
L’objectif est d’apporter à un utilisateur différentes analyses d’un même jeu de donnée lors
d’une réelle analyse exploratoire, afin de permettre la découverte de motifs différents mais cohérents,
dans les données.
4.5.1 COALA : clustering hiérarchique alternatif
L’approche COALA [Bae and Bailey, 2006] considère un premier clustering C(1) de X fixé.
Elle vise à répondre au problème posé comme la recherche d’un clustering C(2) différent de
C(1) par une approche purement algorithmique se fondant sur les méthodes agglomératives
hiérarchiques.
Algorithme
L’algorithme utilisé est le clustering par lien moyen ALINK (cf. section 1.2.2). Partant des
amas singletons Ai = fxig et D0 = fAigi21::n avec D la structure de dendrogramme associée
4.5. APPROCHES ALTERNATIVES 159
à la classification hiérarchique. Soit D la mesure de distance entre amas, les deux amas les
moins distants sont successivement fusionnés dans un processus itératif jusqu’à atteindre un
amas contenant l’ensemble des individus. Les auteurs proposent de biaiser la construction du
dendrogramme D en utilisant les connaissances du clustering C(1) avec l’objectif d’obtenir un
clustering C(2) dissimilaire.
L’approche suit alors plusieurs étapes pour répondre à cet objectif :
1. la génération de contraintes consiste à construire des contraintes de type CL, pour toute
paire d’individus appartenant au même groupe dans C(1), plus formellement :
CL = f(xi; xj) 2 X2 j Link(1)(xi; xj)g
Autrement dit, les contraintes traduisent l’inverse du résultat de C(1). L’algorithme COALA a
pour objectif de satisfaire les contraintes (xi; xj) 2 CL i.e. ne pas regrouper xi et xj déja
ensemble dans C(1).
2. la génération de candidats à l’agglomération permet d’identifier simultanément deux
paires d’amas qui sont susceptibles d’être regroupés à une itération particulière de l’algorithme
hiérarchique. Soit _i l’ensemble des paires d’amas candidates pour la fusion :
_i = f(Ak;Ak0) 2 D2
i g
et _+
i l’ensemble des paires d’amas candidates pour la fusion telles que la fusion de ces
amas ne violerai aucune contrainte CL :
_+
i = f(Ak;Ak0) 2 D2
i j 8(xi; xj) 2 Ak _ Ak0 ; (xi; xj) =2 CLg
On note :
d : la distance entre les amas (A_i
;A_j
) les moins distants :
d = min
(Ai;Aj )2_i
D(Ai;Aj)
d+ : la distance entre les amas (B_
i ;B_
j ) les moins distants satisfaisant les contraintes CL :
d+ = min
(Bi;Bj )2_+
i
D(Bi;Bj)
3. la détermination du candidat permet de décider effectivement laquelle des deux paires
candidates choisir afin d’atteindre l’objectif. Une première stratégie employable est de systématiquement
choisir les paires d’amas distants de d. Ceci permet d’atteindre l’objectif
de qualité mais ne tient pas du tout compte du clustering C(1), ainsi l’objectif de dissimilarité
n’est pas atteint. De manière duale, une seconde stratégie consiste à toujours fusionner
les paires d’amas distants de d+ permettant cette fois de réaliser le critère de dissimilarité,
mais non le critère de qualité. Ainsi les auteurs proposent d’introduire un nouveau paramètre
_, et modulent la décision en observant le ratio entre les valeurs de distances d et
d+ :
d
d+ < _ ! Di = Di1 n A_i
n A_j
[ (A_i
[ A_j
) (4.16)
d
d+
_ _ ! Di = Di1 n B_
i n B_
j [ (B_
i [ B_
j ) (4.17)
Ainsi selon les valeurs de _ le compromis entre les deux objectifs de dissimilarité et de qualité
peut être atteint.
160 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
Algorithme 31 COALA
ENTRÉES : X, C(1), n(2)
k , _
SORTIES : C(2)
1 : Construction de CL selon §1
2 : C(2) = Appliquer AGNES sur X selon les règles (4.16) et (4.17)
Discussion
Les auteurs ne proposent pas de moyens automatiques pour estimer la meilleure valeur du
paramètre _. Une proposition pour fournir un ensemble de clusterings alternatifs consiste à
appliquer récursivement COALA, puis enrichir les contraintes CL à chacune de ces applications.
Cette proposition est limitée car un trop grand nombre de clusterings alternatifs entraînera une
dégradation inévitable de la qualité.
4.5.2 ADFT : apprentissage de distance alternative
L’approche ADFT (Alternative Distance Function Transformation) [Davidson and Qi, 2008]
permet de générer deux clusterings alternatifs C(1) et C(2) de X. C(1) est obtenu classiquement
par application d’un algorithme de clustering quelconque A. L’apport principal de l’approche est
alors de proposer un algorithme simple et intuitif pour garantir l’obtention du clustering C(2)
alternatif à C(1).
Algorithme
ADFT (algorithme 32) est composée de cinq étapes :
1. la génération du premier clustering C(1) ;
2. la caractérisation de C(1) par génération d’un ensemble de contraintes ML et CL en adéquation
avec C(1), et apprentissage d’une nouvelle fonction de distance d(1) à partir de
l’ensemble des individus impliqués dans ces contraintes ;
3. le calcul d’une fonction de distance d(2) alternative à d(1) ;
4. la transformation de X (matrice représentant les données) en X0 en adéquation avec d(2) ;
5. le clustering de X représenté par X0 pour obtenir C(2).
L’étape d’apprentissage de distance caractérisant C(1) est l’application des travaux de recherches
de [Xing et al., 2002b] et ne fait pas l’objet d’adaptation particulière dans ADFT. Il
n’est pas non plus précisé la manière dont sont générées les contraintes utilisées.
En revanche, en supposant d(1)(xi; xj) connue 8(xi; xj) 2 X2, les auteurs proposent un
moyen optimal d’obtenir une distance alternative. Soit D(1) la matrice représentant la fonction
de distance telle que d(1)(xi; xj) =
q
(xi xj)D(1)(xi xj)> où les xi sont des vecteurs
lignes, la décomposition en valeurs singulières de D(1) offre une intuition particulière sur D(1) :
D(1) = U_V
L’intuition derrière la décomposition SV D est que la transformation réalisée par D(1) peut
être décomposée en une succession de trois transformations V , _ et U interprétables géométriquement
:
V décrit via ses vecteurs lignes une nouvelle base orthonormée ;
4.5. APPROCHES ALTERNATIVES 161
_ est une matrice diagonale dont les valeurs _jj dilatent (_jj > 1), ou compressent (_jj <
1) la j-ième dimension de la nouvelle base V ;
U effectue une rotation des axes via ses vecteurs colonnes.
Une distance entre les individus correspond alors à la création d’une nouvelle base orthogonale
V dans laquelle l’unité de la dimension est pondérée par les valeurs respectives de la
diagonale de _ et dans laquelle les données sont déplacées par rotation selon U. Partant de
cette interprétation de la distance d(1) apprise à partir de C(1), les auteurs proposent de déterminer
d(2) en modifiant les altérations des dimensions de la base orthogonale associée à D(1)
dans la décomposition SV D. En particulier les dimensions dilatés doivent être compressées, et
réciproquement. Les auteurs proposent alors d’utiliser l’inverse de la matrice _, ainsi la nouvelle
mesure de distance d(2) est définie à partir de sa matrice par :
D(2) = U_1V (4.18)
La transformation de X en une nouvelle représentation alternative X0 est obtenue en posant
:
X0 = D(2)>
X (4.19)
Pour finir, C(2) est obtenu en effectuant un clustering de X0.
Algorithme 32 ADFT
ENTRÉES : X, n(1)
k , n(2)
k , A
SORTIES : C(1);C(2)
1 : C(1) = appliquer A sur X représenté par X
2 : Calcul de D(1)
3 : Calcul de D(2) selon (4.18)
4 : Calcul de la nouvelle représentation X0 par (4.19)
5 : C(2) = appliquer A sur X représenté par X0
Discussion
L’apport principal de cette approche est de considérer l’obtention de solutions alternatives en
extrayant des contraintes ML et CL à partir d’un premier clustering optimal pour les données.
Néanmoins, l’approche ADFT est conçue pour trouver uniquement deux clusterings et ne semble
pas être extensible dans le même esprit au cas où l’on souhaite un nombre plus élevé d’alternatives,
sauf peut-être en sélectionnant à partir du premier clustering, différents ensembles de
contraintes menant à différentes matrices de distances.
4.5.3 CAMI : estimation d’un mélange de modèles alternatifs
L’approche CAMI développée par [Dang and Bailey, 2010], est une approche générative permettant
d’obtenir deux clusterings alternatifs à partir d’un unique jeu de donnée. L’approche est
fondée sur l’hypothèse d’un modèle de mélange gaussien censé avoir généré l’échantillon X et
l’objectif est de trouver deux ensembles de paramètres _(1) et _(2) du mélange tels que :
– _(1) et _(2) sont de bons paramètres au sens où ils permettent de maximiser la logvraisemblance
des données ;
– _(1) et _(2) induisent des clusterings différents sous l’hypothèse MAP.
Objectif
162 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
L’objectif est alors de simultanément :
– maximiser la log-vraisemblance des données paramétrée par _(1) : L(X;Z;_(1))
– maximiser la log-vraisemblance des données paramétrée par _(2) : L(X;Z;_(2))
– minimiser l’information mutuelle entre C(1) et C(2) conditionnellement aux paramètres
_ = (_(1);_(2)) : MI(C(1);C(2)j_)
Le critère global à optimiser s’exprime alors sous la forme :
QCAMI = L(X;Z;_(1)) + L(X;Z;_(2)) _MI(C(1);C(2))
où
L(X;Z;_(r)) =
X
xi2X
n(r)
Xk
k=1
z(r)
ik log(_(r)
k f(r)
k (x(r)
i ; _(r)
k )) (4.20)
MI(C(1);C(2)) =
nk
(1) X
k1=1
nk
(2) X
k2=1
MI(C(1)
k1
;C(2)
k2
j_) (4.21)
Algorithme
L’algorithme permettant d’obtenir les meilleurs paramètres _(1) et _(2) suit le principe de
EM (1.4.2), et alterne une étape de calcul de l’espérance de la log-vraisemblance des données
complétées connaissant une estimation courante des paramètres, puis une étape de maximisation
de cette espérance selon les paramètres.
Soient z(r)
ik = f(Z(r)
i = kjxi;__(r)) et ~z(r)
kl = f(C(r)
k jC(r)
l ;__(r)). L’étape du calcul de l’espérance
des variables latentes Z(r)
i est décomposée en un terme correspondant à la probabilité a
posteriori issue de la part des log-vraisemblances locales :
z(r)
ik =
_(r)
k N(xi _(r)
k ;_(r)
k )
Xnk
k0=1
_(r)
k0 N(xi _(r)
k0 ;_(r)
k0 )
(4.22)
avec r 2 f1; 2g, et un terme correspondant à la part d’information mutuelle :
~z(r)
kl =
_(r)
k _(r)
l N(_(r)
l _(r)
k ;_(r)
l + _(r)
k )
Xnk
k0=1
_(r)
k0 _(r)
l N(_(r)
l _(r)
k0 ;_(r)
l + _(r)
k0 )
(4.23)
où (r; r) 2 f1; 2g2 et r 6= r.
La valeur de probabilité a posteriori z(r)
ik est d’autant plus forte que l’individu xi est proche de
la moyenne _(r)
k de la k-ième gaussienne relativement aux moyennes des autres gaussiennes du
clustering C(r) et selon la matrice de variance _(r). De la même manière, la valeur de probabilité
a posteriori ~z(r)
kl est d’autant plus forte que la moyenne _(r)
k de la k-ième gaussienne du clustering
C(r) est proche de la moyenne _(r)
l de la l-ième gaussienne du clustering C(r) relativement aux
autres gaussiennes de ce clustering.
L’étape de maximisation de l’algorithme EM consiste à maximiser en _ l’espérance sur Z de
la log vraisemblance L(X;Z;_(r)) (4.5.3). Les conditions d’optimalité du premier ordre donnent
4.6. CONTRIBUTIONS 163
les mises à jours optimales des paramètres _(r)
k et _(r)
k 8r 2 f1; 2g;C(r)
k 2 C(r) :
_(r)
k =
1
n _nk
(r)
0
@
X
xi2X
z(r)
ik _
nk
(r) X
l=1
~z(r)
kl
1
A (4.24)
_(r)
k =
X
xi2X
z(r)
ik _(r)
k
1
xi _
nk
(r) X
l=1
~z(r)
kl (_(r)
k + _(r)
l )1_rl
X
xi2X
z(r)
ik _(r)
k
1
_
nk
(r) X
l=1
~z(r)
kl (_(r)
k + _(r)
l )1
(4.25)
La mise à jour de la matrice de variances/covariances est obtenue de sorte à maximiser une
borne inférieure du critère QCAMI :
_(r)
k =
X
xi2X
z(r)
ik (xi _(r)
k )(xi _(r)
k )>
X
xi2X
z(r)
ik
_
2
Xnkr
l=1
~z(r)
kl
(4.26)
Algorithme 33 CAMI
ENTRÉES : X, n(1)
k , n(2)
k
SORTIES : C(1);C(2)
1 : Initialisation aléatoire des _r, 8r 2 f1; 2g
2 : Étape E : Mise à jour des z(r)
ik en utilisant (4.22)
3 : Étape E : Mise à jour des ~z(r)
kl en utilisant (4.23)
4 : Étape M : Mise à jour des _(r)
k en utilisant (4.24), (4.25) et (4.26)
5 : Si QCAMI change alors aller en 2
6 : C(r)
k = fxi 2 Xjz(r)
ik = max
k02[1::nk]
z(r)
ik0 g, 8k 2 [1::nk]
Discussion
L’approche CAMI propose de résoudre la problématique de clustering alternatif sous l’hypothèse
d’un modèle de mélange. Cette approche est limitée par le fait qu’elle propose de fournir
uniquement un ensemble de deux clusterings alternatifs. Néanmoins, elle a l’avantage de permettre
l’obtention de clusterings de nombre de groupes différents tout en reposant sur une formalisation
solide et caractérisant l’ensemble des solutions comme des approximations d’estimateurs
de maximum de vraisemblance pénalisée par l’objectif de dissimilarité entre les clusterings.
Finalement, la contrepartie de la rigueur et de la solidité du formalisme est payée par le fait qu’il
n’est pas possible de choisir différents algorithmes pour produire les différents clusterings malgré
la possibilité de choisir des familles de lois du mélange différentes pour chaque clustering.
4.6 Contributions
4.6.1 Motivation
L’approche COBOC proposée s’inspire des méthodes d’ensemble de clusterings et de consensus
de clusterings présentées précédemment : CE et SAMARAH. Pour répondre à la problématique
du clustering multi-vues en exploitant les représentations disponibles des individus (ce qui
164 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
n’est pas réalisé dans les approches précédentes présentées dans ce chapitre), COBOC repose
sur l’approche ADAUZABOC présentée au chapitre précédent (cf. section 3.7.3). L’idée est d’appliquer
sur chaque vue le meta-algorithme ADAUZABOC, ce qui permet d’utiliser n’importe quel
objectif de clustering sous-jacent. La réponse au problème du clustering multi-vues, la réalisation
de l’hypothèse du consensus, est réalisée au moyen de la génération incrémentale d’un ensemble
de contraintes que devront respecter au mieux l’ensemble des algorithmes de clusterings locaux.
Ce mécanisme de génération incrémentale de contraintes est tiré d’un principe ayant fait ses
preuves en apprentissage semi-supervisé : le co-apprentissage.
co-apprentissage
L’algorithme de co-apprentissage [Blum and Mitchell, 1998] vise à construire deux classifieurs
à partir d’un jeu de donnée X décrit selon deux vues, et pour lequel on dispose d’une
faible quantité d’individus étiquettés. On pose alors X = L [ U avec jLj << jUj où L est l’ensemble
des individus pour lesquels on dispose de l’information de classe et U est l’ensemble des
individus non étiquettés. L’idée de l’algorithme est alors de construire à partir de L un classifieur
dans chaque vue. Soit U0 _ U avec jU0j = u fixé, chaque classifieur est utilisé pour étiquetter les
exemples de U tout en leur associant une confiance. Les m+ exemples positifs et m exemples
négatifs associés à une confiance maximale sont alors sélectionnés parmi les u exemples classifiés.
Ces exemples sont injectés parmi les individus étiquettés L, et m+ + m individus xi 2 U
sont retirés aléatoirement et réinjectés dans U0.
construction incrémentale de contraintes
Le mécanisme de construction incrémentale des contraintes s’appuie directement sur ce principe
de co-apprentissage. Dans notre contexte, les exemples sont les paires d’individus, pour
lesquels les éléments devront être classés ensembles ou non. La terminologie des contraintes
must-link (ML) et cannot-link (CL) peut alors être employée pour décrire les exemples positifs
et négatifs respectivement. L’approche COBOC va alors générer à chaque étape un ensemble de
contraintes parmi les plus «évidentes», i.e. associées à une plus grande confiance, construisant
ainsi l’équivalent de l’ensemble L du co-apprentissage. Les nouvelles contraintes sélectionnées
à chaque étape sont choisies parmi U = X2 n L. Un ensemble final L de paires ML ou CL
jugé satisfaisant sert alors de guide aux algorithmes de clusterings locaux qui cherchent dans
chaque vue une partition de X dans un contexte alors semi-supervisé, les contraintes constituant
les exemples de L devant être respectées. Les différentes hypothèses de départ émisent
mènent à deux variantes de ce mécanisme de co-apprentissage pour le clustering dans un cadre
de multiplicité :
COBOC : les partitions locales proches peuvent être obtenues selon :
COBOC consensus, la génération d’un ensemble L de paires d’individus, unique et commun
à toutes les vues, permettant aux différents algorithmes de clusterings d’obtenir
des résultats proches en respectant les mêmes contraintes ;
COBOC complémentaire, la génération d’une collection fL(r)gr2[1::nr] d’ensembles de paires
d’individus, différents pour toutes les vues, permettant aux algorithmes de clusterings
d’obtenir des résultats proches. Cette recherche de consensus est atteinte en s’assurant
que si deux individus sont regroupés (respectivement séparés) par tous les algorithmes
de clustering locaux sauf un, alors on doit parmettre à celui-ci de parvenir également à
regrouper (respectivement séparer) ces mêmes individus.
ALTERBOC : L’obtention de partitions locales différentes peut être obtenue selon :
ALTERBOC global, la génération d’une collection fLgr2[1::nr] d’ensembles de paires d’individus,
différents pour toutes les vues, permettant aux algorithmes de clusterings d’obte4.6.
CONTRIBUTIONS 165
nir des résultats différents en s’assurant que chaque algorithme ne puisse respecter des
contraintes que les autres algorithmes parviennent à satisfaire ;
ALTERBOC complémentaire, un cas particulier du mécanisme précédent en ne considérant
que les contraintes que les premiers algorithmes satisfont par eux même localement. À
titre d’exemple, si on a dans l’esprit : Link(r)(xi; xj) ^ Link(r)(xi; xj) 8r 6= r, alors il
est cohérent de considérer ultérieurement (xi; xj) 2 CL(r) afin de contraindre fA(r)g à
réaliser un clustering différent de ceux obtenus par les A(r).
Dans la suite sont déclinées les deux variantes et leurs heuristiques correspondantes, en
reprennant une notation plus proche de celle du chapitre 3. Les deux approches se basent sur
ADAUZABOC pour faire en sorte qu’un algorithme de clustering quelconque satisfasse localement
un ensemble de contraintes données.
Objectif
Soient ML(r) et CL(r) 8r 2 [1::nr] la recherche d’une représentation optimale facilitant le
respect des contraintes par A(r) est caractérisée pour rappel par X(r)_
= X(r)P(r)_ où P_ =
fP(r)_
gr2[1::nr] est la solution optimale du problème suivant :
max
P
Xnr
r=1
Q(r)
COH(P(r)) =
Xnr
r=1
trace(P(r)>
X(r)>
X(r)P(r))
s:t: P(r)>
P(r) = Ids 8r 2 [1::nr]
d2
P(r)(xi; xj) _ _(r)
ij 8(xi; xj) 2 ML(r)
d2
P(r)(xi; xj) _ _(r)
ij 8(xi; xj) 2 CL(r)
_(r)
ij _ 0 8r 2 [1::nr]; 8(xi; xj) 2 ML(r) [ CL(r)
(4.27)
La différenciation entre les deux approches COBOC et ALTERBOC se fait via la génération des
contraintes. COBOC et ALTERBOC sont des instanciations de la plateforme () utilisant différentes
heuristiques qui sont autant de propositions pour le développement d’approches génériques de
types multi-vues ou alternatives. Dans ce cadre, les contributions présentées par la suite sont
essentiellement algorithmiques et prennent la forme de stratégies dont on espère a priori qu’elles
amélioreront la qualité des clusterings produits.
L’idée est de partir des ensembles ML(r) = CL(r) = ; et d’alterner deux étapes qui sont :
– la recherche des clusterings optimaux locaux selon ADAUZABOC, pour ML(r) et CL(r)
fixés ;
– l’augmentation de ML(r) et CL(r) selon les clusterings locaux obtenus.
La recherche d’un clustering local optimal étant indépendante de la recherche des clusterings
dans les autres vues, cette étape est réalisée indépendamment dans chaque vue et correspond
exactement à l’algorithme ADAUZABOC détaillé en section 3.7.3.
La seconde étape consiste à augmenter ML(r) et CL(r). Cette augmentation est réalisée en
sélectionnant à partir de l’ensemble des paires d’individus non présentes dans les contraintes,
un ensemble de m paires candidates pour chaque clustering local. Les paires candidates sont
associées à une confiance indiquant leur prédisposition à être une contrainte ML ou CL.
Soit H+(r) et H(r) les matrices des hypothèses de clustering dans la vue r définies par :
H+(r)
ij =
_
1 si i 6= j et Link(r)(xi; xj)
0 sinon
166 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
H(r)
ij =
(
1 si i 6= j et Link
(r)
(xi; xj)
0 sinon
La matrice complète des hypothèses de clustering est alors donnée par :
H(r) = H+(r) + Idn + H(r) (4.28)
En particulier les paires d’individus (xi; xi) 2 X sont toujours classées ensembles par A(r),
ainsi H(r)
ii = 1. Les valeurs positives (respectivement négatives) de la matrice des hypothèses de
clustering H(r) sont alors les paires d’individus correspondant aux exemples étiquettés positivement
(respectivement négativement), dans la terminologie du co-apprentissage.
Soit D(r) la matrice des distances entre individus dans le dernier sous-espace optimal de la
vue r définie par :
D(r)
ij = d2
P(r)_(xi; xj) (4.29)
On pose D(r)
ijmax
et D(r)
ijmin
tels que :
D(r)
ijmax
=
8><
>:
max
(xk;xl)2X2
_
H+(r)
kl D(r)
kl
_
si i 6= j et Link(r)(xi; xj)
max
(xk;xl)2X2
_
H(r)
kl D(r)
kl
_
si i 6= j et Link
(r)
(xi; xj)
D(r)
ijmin
=
8><
>:
min
(xk;xl)2X2
_
H+(r)
kl D(r)
kl
_
si i 6= j et Link(r)(xi; xj)
min
(xk;xl)2X2
_
H(r)
kl D(r)
kl
_
si i 6= j et Link
(r)
(xi; xj)
On pose _(r)
ij la confiance associée à la paire (xi; xj) dans la vue r qui s’exprime par :
_(r)
ij =
H(r)
ij (D(r)
ijmax
D(r)
ij )
D(r)
ijmax
D(r)
ijmin
(4.30)
Cette confiance est à la base des différentes déclinaisons de COBOC et ALTERBOC. Les hypothèses
considérées pour les approches proposées sont alors les suivantes :
– plus une confiance _(r)
ij > 0 est élevée, plus on a la certitude d’avoir Link(r)(xi; xj) ;
– plus une confiance _(r)
ij < 0 est faible, plus on a la certitude d’avoir Link
(r)
(xi; xj).
En raisonnant en terme de distance, et non en terme de confiance, ces hypothèses reflètent
les résultats obtenus à l’issue des travaux sur ADAUZABOC au chapitre précédent (cf. section
3.7.3).
4.6.2 COBOC : boosting collectif et collaboratif pour la recherche de consensus
L’approche générique de recherche de consensus entre plusieurs vues d’un même jeu de
données, ou entre plusieurs algorithmes de clusterings appliqués à un jeu de donnée mono-vue
se décline en deux heuristiques :
COBOC consensus, pour laquelle chaque vue participe à la construction d’un même ensemble
de contraintes que tous les algorithmes de clustering devront satisfaire au mieux ;
COBOC complémentaire, pour laquelle chaque vue r 6= r participe à la construction d’un
même ensemble de contraintes pour r que l’algorithme A(r) ne parvient pas par lui même
à satisfaire a priori.
4.6. CONTRIBUTIONS 167
COBOC consensus
On se place dans le cadre où chaque vue participe à la construction du même ensemble de
contraintes. Ainsi pour simplifier on notera ML = ML(r) et CL = CL(r) 8r 2 [1::nr]. L’idée est
de partir des ensembles ML = CL = ; et d’alterner deux étapes qui sont :
– la recherche des clusterings optimaux locaux selon ADAUZABOC, pour ML et CL fixés ;
– l’augmentation de ML et CL selon les clusterings locaux obtenus et la stratégie de recherche
de consensus, notée , choisie.
La première étape est le coeur du chapitre précédent et ne sera pas détaillée davantage, elle
consiste simplement à résoudre le problème (4.27).
Concernant la seconde étape, partant du calcul de la confiance _(r)
ij (4.30), on calcul une
confiance globale pour chaque paire d’individus comme une moyenne des confiances locales :
_ij =
1
nr
Xnr
r=1
_(r)
ij (4.31)
Une valeur positive et élevée de _ij indique que xi et xj ont majoritairement été classés
ensemble par les algorithmes A(r) et que ceux-ci sont dans chaque vue plus proches entre eux
que des autres individus. Dans ce cas on est davantage certain que xi et xj devraient appartenir
à un même groupe. Cette confiance permet de définir _ML et _CL comme l’ensemble des paires
d’individus candidates :
_ML = f(xi; xj) 2 X2 n (ML[ CL) j _ij > 0g (4.32)
_CL = f(xi; xj) 2 X2 n (ML[ CL) j _ij < 0g (4.33)
Ces ensembles sont munis de la relation d’ordre _ définie par :
(xi; xj) _ (xi0 ; xj0) , j_ij j > j_i0j0 j
qui permet de former une liste ordonnée par la confiance des éléments de _ML et _CL.
La génération des nouvelles contraintes (_) peut alors être obtenue selon trois opérateurs
(ou stratégies) que sont :
– la sélection aléatoire Random qui consiste à tirer m+ et m paires d’individus aléatoirement
parmi _ML et _CL respectivement ;
– la sélection confiante Max qui consiste à sélectionner les m+ et m premières paires
d’individus des listes ordonnées associées à _ML et _CL respectivement ;
– le sélection incertaine Min qui consiste à sélectionner les m+ et m dernières paires
d’individus des listes ordonnées associées à _ML et _CL respectivement.
Les règles d’augmentations sont alors définies par :
ML = ML[ (_ML) (4.34)
CL = CL [ (_CL) (4.35)
COBOC complémentaire
L’idée est de partir des ensembles ML(r) = CL(r) = ; et d’alterner deux étapes qui sont :
– la recherche des clusterings optimaux locaux selon ADAUZABOC, pour ML(r) et CL(r)
fixés ;
168 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
Algorithme 34 COBOC consensus
ENTRÉES : X, fX(r)gr2[1::nr], nk, fA(r)gr2[1::nr], , m+, m, tf
SORTIES : C = fC1; :::;Cnkg
1 : Initialiser CL = ML = ;
2 : Initialiser t = 0
3 : Appliquer ADAUZABOC sur X(r) avec A(r), CL et ML
4 : Déterminer H(r) selon (4.28), 8r 2 [1::nr]
5 : Calculer _ij selon (4.31), 8(xi; xj) 2 X2
6 : Augmenter ML et CL par (4.34) et (4.35)
7 : Si t < tf alors t = t + 1 et aller en 3
8 : C = V ote(fH(r);X_(r)gr2[1::nr])
– l’augmentation de ML(r) et CL(r) selon les clusterings locaux obtenus et la stratégie de
recherche de consensus choisie.
Partant du calcul de la confiance _(r)
ij (4.30), on calcul une confiance ~_(r)
ij comme moyenne
sur les vues r des confiances locales associées aux paires d’individus :
~_(r)
ij =
1
nr 1
Xnr
r=1
r6=r
_(r)
ij (4.36)
Une valeur positive et élevée de ~_(r)
ij indique que xi et xj sont majoritairement classés ensemble
par les algorithmes A(r) 8r 2 [1::nr] ^ r 6= r et que ces individus sont pour chaque
vue autre que r, plus proches entre eux qu’aux autres individus. Dans ce cas on est davantage
convaincu que xi et xj devraient appartenir à un même groupe dans les autres vues. Dans ce
contexte complémentaire, l’idée est que si deux individus appartiennent à un même groupe
dans les vues r 6= r, et si ces individus sont séparés par A(r), alors il faut suggérer à A(r) de les
regrouper.
La confiance ~_ permet alors de définir pour chaque vue r, les ensembles de paires d’individus
candidates _(r)
ML et _(r)
CL :
_(r)
ML = f(xi; xj) 2 X2 n (ML(r) [ CL(r)) j ~_(r)
ij > 0 ^ Link
(r)
(xi; xj)g (4.37)
_(r)
CL = f(xi; xj) 2 X2 n (ML(r) [ CL(r)) j ~_(r)
ij < 0 ^ Link(r)(xi; xj)g (4.38)
Ces ensembles sont munis de la relation d’ordre _(r) définie par :
(xi; xj) _(r) (xi0 ; xj0) , j~_(r)
ij j > j~_(r)
i0j0 j
qui permet de former une liste ordonnée par la confiance des éléments de _(r)
ML et _(r)
CL.
La génération des nouvelles contraintes (_) peut alors être obtenue selon les trois opérateurs
Random, Max et Min définis comme précédemment.
Les règles d’augmentations sont alors définies par :
ML(r) = ML(r) [ (_(r)
ML) (4.39)
CL(r) = CL(r) [ (_(r)
CL) (4.40)
4.6. CONTRIBUTIONS 169
Algorithme 35 COBOC complémentaire
ENTRÉES : X, fX(r)gr2[1::nr], n(r)
k , fA(r)gr2[1::nr], , m+, m, tf
SORTIES : C = fC1; :::;Cnkg
1 : Initialiser CL(r) = ML(r) = ;, 8r 2 [1::nr]
2 : Initialiser t = 0
3 : Appliquer ADAUZABOC sur X(r) avec A(r), ML(r) et CL(r)
4 : Déterminer H(r) selon (4.28), 8r 2 [1::nr]
5 : Calculer ~_ij selon (4.36), 8(xi; xj) 2 X2
6 : Augmenter ML(r) et CL(r) par (4.39) et (4.40)
7 : Si t < tf alors t = t + 1 et aller en 3
8 : C = V ote(fH(r);X_(r)gr2[1::nr])
Construction de la partition unique.
Dans l’esprit des méthodes de clustering multi-vues auxquelles se confronte COBOC, un
unique clustering des individus est attendu. Dans ce contexte, une fusion finale est réalisée sous
la forme d’un vote à la majorité entre les différents clusterings de chaque vue. Ces clusterings
sont alors considérés comme des hypothèses qui peuvent être combinées de différentes façons.
À partir de l’ensemble fH(r)gr2[1::nr] des hypothèses de clustering sur les paires d’individus et
l’ensemble fX_(r)
r2[1::nr]g des représentations optimales locales de X obtenues par ADAUZABOC,
un clustering C final peut être obtenu par :
1. La construction d’une matrice de similarité K1 à partir des hypothèses de clustering :
K1 =
Xnr
r=1
~H
(r) (4.41)
où ~H (r) = 1
2 (H(r) + 1), ainsi H(r)
ij 2 f0; 1g. K1 est ensuite utilisé comme matrice de
similarité, dans un algorithme de clustering classique mono-vue adapté (e.g. AGNES, KKM,
KFKM, SC, etc.).
2. Selon le même principe de vote, mais en utilisant davantage les représentations finales optimales
des individus en recalculant les confiances _ij pour chaque paire (xi; xj). Soit _min
quantité négative correspondante à la plus faible des confiances sur les paires d’individus :
_min = min
(xi;xj )2X2
_ij
et _max tel que :
_max = max
(xi;xj )2X2
(_ij _min)
un noyau normalisé peut alors être construit à partir de _ par :
K2ij =
_ij _min
_max
(4.42)
_min < 0 étant la plus petite valeur de confiance, le numérateur permet de translater les
confiances vers des valeurs positives. Le dénominateur permet alors de ramener la valeur maximale
de confiance translatée à 1. K2ij peut donc être vue comme une mesure de similarité
normalisée entre 0 et 1.
Discussion
170 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
Les deux approches COBOC consensus et COBOC complémentaire proposées reposent sur la
même procédure pour atteindre dans chaque vue r une représentation optimale et un clustering
optimal dans cette représentation, respectant au mieux les ensembles de contraintes données
ML(r) et CL(r). Chaque vue, en respectant ses contraintes, doit aller vers une solution de clustering
proche de celle des autres vues, par construction. Le comportement de ces approches
heuristiques sera présenté plus en détail dans la section d’évaluation. Le même genre de mécanisme
peut être proposé pour la recherche de plusieurs partitions alternatives d’un ensemble
d’individus X, ce qui est l’objet de la prochaine section.
4.6.3 ALTERBOC : boosting collectif et collaboratif pour la recherche
d’alternatives
ALTERBOC est une approche heuristique de découverte de clusterings alternatifs dont le mécanisme
est calqué sur celui de COBOC. Les différentes heuristiques proposées pour l’obtention
d’alternatives sont inspirées des travaux de [Davidson and Qi, 2008] pour ADFT (cf. section
4.5.2). Rappellons qu’ADAUZABOC peut fournir pour chaque alternative, le clustering C(r) fondé
sur la fonction de distance P(r)P(r)> apprise. Cette distance étant apprise par l’intermédiaire des
contraintes, il est alors envisageable de contrôler, par la construction de contraintes appropriées,
la recherche de sous-espaces différents, induisant, par hypothèse, des clusterings différents. Le
simple fait que les clusterings obtenus localement soient optimaux, relativement aux distances
apprises, suggère un mécanisme d’obtention de clusterings alternatifs, au sens de la problématique
de l’alternative clustering.
L’approche générique de recherche de clusterings alternatifs d’un même jeu de données se
décline également en deux heuristiques :
ALTERBOC global, pour laquelle chaque vue ou alternative r 6= r participe à la construction
d’un même ensemble de contraintes pour r quels que soient les résultats de A(r) a priori sur
ces contraintes ;
ALTERBOC complémentaire, pour laquelle chaque alternative r 6= r participe à la construction
d’un même ensemble de contraintes pour r que l’algorithme A(r) ne parvient pas à
satisfaire a priori.
ALTERBOC global
À partir d’une représentation matricielle X de l’ensemble d’individu X, l’idée est de construire
des ensembles ML(r) et CL(r) permettant à un algorithme A(r) d’obtenir un des nr clusterings
alternatifs. Soient ML(r) = CL(r) = ;, l’approche consiste à alterner deux étapes qui sont :
– la recherche des clusterings optimaux locaux selon ADAUZABOC, pour ML(r) et CL(r)
fixés ;
– l’augmentation de ML(r) et CL(r) selon les clusterings locaux obtenus et la stratégie de
recherche d’alternatives choisie.
La recherche d’un clustering local optimal est toujours réalisée grâce à l’algorithme ADAUZABOC
détaillé en section 3.7.3.
Soit la confiance ~_(r)
ij (4.36). Une valeur positive et élevée de ~_(r)
ij indique que xi et xj ont
majoritairement été classés ensemble par les algorithmes A(r) (r 6= r) et que ceux ci sont pour
chaque vue autre que r, plus proches entre eux qu’aux autres individus. L’idée dans le cadre de
la recherche d’un clustering C(r) alternatif à fC(r)g est de s’assurer que A(r) ne regroupe pas xi
et xj . Ainsi, (xi; xj) doit correspondre à une contrainte CL.
4.6. CONTRIBUTIONS 171
La confiance (4.36) permet de définir pour chaque vue r, les ensembles de paires d’individus
candidates _(r)
ML et _(r)
CL :
_(r)
ML = f(xi; xj) 2 X2 n (ML(r) [ CL(r)) j ~_(r)
ij < 0g (4.43)
_(r)
CL = f(xi; xj) 2 X2 n (ML(r) [ CL(r)) j ~_(r)
ij > 0g (4.44)
Ces ensembles sont munis de la relation d’ordre _(r) défini par :
(xi; xj) _(r) (xi0 ; xj0) , j~_(r)
ij j > j~_(r)
i0j0 j
qui permet de former une liste ordonnée par la confiance des éléments de _(r)
ML et _(r)
CL.
La génération des nouvelles contraintes (_) peut alors être obtenue selon trois opérateurs
(ou stratégies) que sont :
– la sélection aléatoire Random qui consiste à tirer m+ et m paires d’individus aléatoirement
parmi _(r)
ML et _(r)
CL respectivement ;
– la sélection confiante Max qui consiste à sélectionner les m+ et m premières paires
d’individus des listes ordonnées associées à _(r)
ML et _(r)
CL respectivement ;
– le sélection incertaine Min qui consiste à sélectionner les m+ et m dernières paires
d’individus des listes ordonnées associées à _(r)
ML et _(r)
CL respectivement.
et les règles d’augmentations sont définies par :
ML(r) = ML(r) [ (_(r)
ML) (4.45)
CL(r) = CL(r) [ (_(r)
CL) (4.46)
Algorithme 36 ALTERBOC global
ENTRÉES : X, fA(r)gr2[1::nr], , m+, m, tf
SORTIES : _ = fC(1); :::;C(nr)g
1 : Initialiser CL(r) = ML(r) = ;, 8r 2 [1::nr]
2 : Initialiser t = 0
3 : Appliquer ADAUZABOC sur X avec A(r), ML(r) et CL(r) 8r 2 [1::nr]
4 : Déterminer H(r) selon (4.28), 8r 2 [1::nr]
5 : Calculer ~_ij selon (4.36), 8(xi; xj) 2 X2
6 : Augmenter ML(r) et CL(r) par (4.45) et (4.46)
7 : Si t < tf alors t = t + 1 et aller en 3
8 : C(r) = Application de ADAUZABOC sur X avec A(r), 8r 2 [1::nr]
ALTERBOC complémentaire
L’heuristique complémentaire est essentiellement la même que la précédente, si ce n’est dans
la construction explicite des ensembles de paires d’individus candidates _(r)
ML et _(r)
CL :
_(r)
ML = f(xi; xj) 2 X2 n (ML(r) [ CL(r)) j ~_(r)
ij < 0 ^ Link
(r)
(xi; xj)g
_(r)
CL = f(xi; xj) 2 X2 n (ML(r) [ CL(r)) j ~_(r)
ij > 0 ^ Link(r)(xi; xj)g
munis de la même relation d’ordre _(r) permettant de former les listes ordonnées par la confiance
des éléments de _(r)
ML et _(r)
CL. Intuitivement, un bon exemple de paire candidate pour être une
172 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
contrainte (xi; xj) 2 ML(r) est un couple séparé dans les alternatives r et aussi dans r. Ainsi
une façon de forcer les algorithmes de clustering à se comporter différemment est d’insister pour
que A(r) regroupe xi et xj .
La génération des nouvelles contraintes est également réalisée au choix par Random, Max
ou Min. Les règles d’augmentation sont également inchangées :
ML(r) = ML(r) [ (_(r)
ML) (4.47)
CL(r) = CL(r) [ (_(r)
CL) (4.48)
Algorithme 37 ALTERBOC complémentaire
ENTRÉES : X, fA(r)gr2[1::nr], , m+, m, tf
SORTIES : _ = fC(1); :::;C(nr)g
1 : Initialiser CL(r) = ML(r) = ;, 8r 2 [1::nr]
2 : Initialiser t = 0
3 : Appliquer ADAUZABOC sur X avec A(r), ML(r) et CL(r) 8r 2 [1::nr]
4 : Déterminer H(r) selon (4.28), 8r 2 [1::nr]
5 : Calculer ~_ij selon (4.36), 8(xi; xj) 2 X2
6 : Augmenter ML(r) et CL(r) par (4.47) et (4.48)
7 : Si t < tf alors t = t + 1 et aller en 3
8 : C(r) = Application de ADAUZABOC sur X avec A(r), 8r 2 [1::nr]
Discussion
Les approches ALTERBOC global et ALTERBOC complémentaire proposent d’atteindre un ensemble
de représentations optimales associées chacunes à un clustering optimal, respectant au
mieux les ensembles de contraintes données ML(r) et CL(r). Les contraintes sont construites
de sorte à rechercher une divergence entre les alternatives. Les sous-espaces de représentation
obtenus doivent alors être distincts et les clusterings associés doivent être des optima différents.
Tout comme les approches de clustering alternatifs présentées précédemment, l’intuition de
l’efficacité de la recherche d’alternatives se compromet, à nombre d’alternatives augmentant.
En effet, il est plus facile d’envisager l’obtention de partitions différentes dans le cas de deux
alternatives que pour un nombre plus élevé. Par exemple, dès trois alternatives, soient C(1),
C(2) et C(3) trois partitions d’un même jeu de données obtenues par A(1), A(2) et A(3). On
ne peut dans ce contexte garantir une réelle différence entre les alternatives car la décision
finale associée à chaque paire d’individus est binaire (regroupée ou séparée). Parmi les trois
décideurs A(1), A(2), A(3), si deux d’entre eux permettent d’obtenir des partitions différentes,
alors le troisième aura nécessairement une partie commune avec au moins l’un d’entre eux,
voire même les deux. La tâche est alors de contrôler dans quelle mesure le troisième algorithme
aura des parties communes, mais réduites, avec les deux autres.
4.7 Évaluation
Les approches COBOC et ALTERBOC ont été testées expérimentalement en suivant différentes
procédures d’évaluation internes et externes. Les jeux de données qui ont servi de base de test
sont tirés des chapitres précédents.
L’approche COBOC a été testée dans deux contextes applicatifs différents :
4.7. ÉVALUATION 173
– le contexte multi-vues (cf. chapitre 2) où l’on cherche une partition consensus de l’ensemble
X où chaque individu est décrit simultanément par plusieurs représentations. Ce
cadre applicatif est celui des approches de clustering multi-vues ;
– le contexte de la combinaison de modèles, où l’on applique plusieurs algorithmes de clustering
différents sur un jeu de donnée mono-vue. Ce cadre applicatif est typique des développement
des approches de clustering d’ensemble, de clustering collaboratif ou de clustering
alternatif.
L’application au contexte multi-vues est observée sur le jeu de données mfeat (cf. section
2.5.1), et l’application au contexte de la combinaison de modèles pour la recherche de consensus
ou d’alternatives est observée sur les jeux de données Iris, parkinson et Wine (cf. section 3.8.1).
4.7.1 Protocole expérimental
Dans un premier temps, la recherche d’une solution consensus par COBOC et de solutions
alternatives par ALTERBOC sont caractérisées en termes d’évaluation interne, en observant l’évolution
de la moyenne des informations mutuelles entre les différents clusterings locaux (avant
l’étape de vote final pour COBOC) :
AvgNMI(_) =
1
nr
Xnr
r=1
NMI(C;C(r)) ; _ = fC(1); : : : ;C(nr)g
Dans un second temps, la performance des différentes approches est mesurée par une évaluation
externe (% F-mesure, AvgEnt et NMI). Cette évaluation est réalisée selon plusieurs objectifs :
– observer l’apport des approches collaboratives sur chaque algorithme de clustering A(r)
(avant la fusion finale pour COBOC) selon la stratégie de collaboration employée et au
regard des résultats obtenus par chacun de ces algorithmes sans procédure de collaboration
;
– observer l’apport des solutions obtenues par COBOC et de la fusion finale par calcul de K1
et K2, et comparée à une solution de clustering multi-vues : COFKM;
– observer l’apport des solutions locales proches obtenues par (COBOC) ou alternatives obtenues
par (ALTERBOC) comme prémisse à l’application de COFKM ou COKFKM. Cette
observation a pour but d’observer l’apport de la diversité parmi les différents clusterings
sur les résultats des approches multi-vues : COFKM et COKFKM.
Les résultats obtenus correspondent à une moyenne de 20 exécutions pour Iris, 10 exécutions
pour wine et parkinson et 5 exécutions pour mfeat. L’augmentation du nombre de contraintes est
paramétré de la façon suivante :
– le nombre maximum d’augmentations de contraintes est fixé à 10 ;
– à chaque itération de COBOC ou ALTERBOC, i.e. à chaque augmentation du nombre de
contraintes, m = p% _ (n(n1)
2nk
) contraintes sont générées, où p% est un pourcentage prédéfini.
le terme m correspond à un pourcentage de nombre de contraintes ML pouvant
être générées, sous hypothèse de groupes de tailles homogènes. Dans les expériences,
p% = 1, ainsi le nombre total de contraintes générées est de 1
10nk
_ le nombre de paires
d’individus différentes.
Lorsqu’ils sont utilisés, les algorithmes de clustering sont paramétrés de manière classique. Si
le nombre de groupes est nécessaire, celui-ci correspond au nombre de classes du jeu de données
correspondant. Les paramètres de flou éventuels nécessaires sont tous fixés à _ = 1:25.
Les approches ADAUZABOC encapsulant les algorithmes précédents sont paramétrées par
le choix heuristique de la dimensionnalité du sous-espace à calculer à chaque étape : s, correspondant
au nombre de valeurs propres positives de la matrice à diagonaliser. L’initialisation
174 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
de l’algorithme boîte noire employé est invariante pour une recherche de sous-espace optimal
donnée, mais différente entre les vues ou alternatives.
4.7.2 Évaluation interne
Stratégie Random
Stratégie Minimum
Stratégie Maximum
FIGURE 4.2 — Légende pour l’évaluation
interne de COBOC et ALTERBOC.
Évaluation interne de COBOC
L’évaluation interne de COBOC consiste essentiellement à observer l’impact de la recherche
heuristique de collaboration entre les algorithmes locaux dans les contextes de la combinaison
de modèles et du clustering multi-vues. L’objectif, malgré un faible contrôle sur le comportement
des différents algorithmes, est d’obtenir une augmentation de la valeur d’information mutuelle
normalisée moyenne entre les résultats de ces algorithmes.
Évaluation interne de COBOC dans le cadre de la combinaison de modèle. Les heuristiques
consensus et complémentaire ont été observées sur une exécution dans le cadre de la
combinaison de modèles non supervisés (cf. figure 4.3 et 4.4).
Selon l’heuristique consensus (figure 4.3), la stratégie maximum (Max) n’apporte pas de
résultats significatifs, dans la mesure où les paires d’individus de _ML (respectivement _CL) sélectionnées
comme étant les plus confiantes sont déjà regroupées (respectivement séparées) par
tous les algorithmes locaux. Néanmoins il existe certaines paires d’individus pour lesquelles ces
observations ne sont pas vraies. Il en résulte une modification mineure de la mesure de similarité
(NMI) entre les résultats des algorithmes locaux qui n’est favorable que dans les cas présentés
de recherche de consensus entre quatre algorithmes pour wine, et six algorithmes pour Iris.
Néanmoins, cette observation est limitée à une exécution, pour une configuration particulière
de l’algorithme COBOC, et un choix particulier des algorithmes locaux. Le résultat positif qui
en ressort est qu’il est possible d’atteindre une solution offrant un meilleur consensus entre les
algorithmes locaux. La stratégie minimum (Min) n’est efficace dans la recherche de consensus
que pour le jeu de donnée Parkinson, pour lequel les algorithmes locaux utilisés se comporte
vraiment différemment, et les résultats de base obtenus sont très dissimilaires. Elle est donc
globalement peu concluente dans ce contexte. La stratégie random a un comportement plus
instable. En général, la tendance est plutôt négative, à nombre d’échange de contraintes augmentant.
Néanmoins, on observe la possibilité d’atteindre un meilleur consensus que la stratégie
maximum, ce qui est un résultat très positif. Cependant l’identification de tels cas particuliers
n’a pas été l’objet de cette étude.
Les observations issues des expériences sur l’heuristique complémentaire (figure 4.4) corroborent
les observations précédentes au sujet de l’inefficacité de la stratégie minimum (malgré
une observation positive à faible nombre d’échanges de contraintes pour wine avec six algorithmes
locaux) et l’atteignabilité de très bonnes solutions de consensus par la stratégie random.
En revanche, dans ce contexte, la stratégie maximum est plus instable, et tend davantage à
4.7. ÉVALUATION 175
s’éloigner des solutions de clusterings de base. Cette observation n’est pas souvent positive, si ce
n’est pour le jeu de donnée Parkinson pour lequel la stratégie maximum n’avait aucun impact
sur l’heuristique COBOC consensus.
Pour dresser le bilan des différentes observations de COBOC pour la combinaison de modèles,
la stratégie random permet d’obtenir souvent le meilleur consensus, mais les causes de
cette observation n’ont pu être déterminées. La stratégie maximum permet parfois d’obtenir un
meilleur consensus mais celui-ci est limité. Enfin la stratégie minimum est peu pertinente dans
ce contexte.
2 4 6 8 10
0.40 0.45 0.50 0.55 0.60 0.65 0.70
CoBoC consensus
Nb. Itérations
AvgNMI
2 4 6 8 10
0.25 0.30 0.35 0.40 0.45
CoBoC consensus
Nb. Itérations
AvgNMI
2 4 6 8 10
0.2 0.3 0.4 0.5 0.6
CoBoC consensus
Nb. Itérations
AvgNMI
2 4 6 8 10
0.3 0.4 0.5 0.6 0.7
CoBoC consensus
Nb. Itérations
AvgNMI
2 4 6 8 10
0.20 0.25 0.30 0.35 0.40
CoBoC consensus
Nb. Itérations
AvgNMI
2 4 6 8 10
0.2 0.3 0.4 0.5 0.6
CoBoC consensus
Nb. Itérations
AvgNMI
2 4 6 8 10
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
CoBoC consensus
Nb. Itérations
AvgNMI
2 4 6 8 10
0.3 0.4 0.5 0.6 0.7 0.8
CoBoC consensus
Nb. Itérations
AvgNMI
2 4 6 8 10
0.2 0.4 0.6 0.8
CoBoC consensus
Nb. Itérations
AvgNMI
FIGURE 4.3 — Évolution de l’AvgNMI pour la combinaison de modèle et l’heuristique consensus. Dans
l’ordre, les données iris, parkinson et wine. Les trois lignes correspondent (1) à l’application de deux
algorithmes : KM et CLINK, (2) à l’application de quatre algorithmes : KM, SC, SLINK et CLINK, (3) à
l’application de six algorithmes : KM, FKM, SC, SLINK, ALINK et CLINK.
176 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
2 4 6 8 10
0.3 0.4 0.5 0.6 0.7
CoBoC complémentaire
Nb. Itérations
AvgNMI
2 4 6 8 10
0.25 0.30 0.35 0.40
CoBoC complémentaire
Nb. Itérations
AvgNMI
2 4 6 8 10
0.1 0.2 0.3 0.4 0.5
CoBoC complémentaire
Nb. Itérations
AvgNMI
2 4 6 8 10
0.1 0.2 0.3 0.4 0.5 0.6 0.7
CoBoC complémentaire
Nb. Itérations
AvgNMI
2 4 6 8 10
0.10 0.15 0.20 0.25 0.30 0.35
CoBoC complémentaire
Nb. Itérations
AvgNMI
2 4 6 8 10
0.1 0.2 0.3 0.4 0.5
CoBoC complémentaire
Nb. Itérations
AvgNMI
2 4 6 8 10
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
CoBoC complémentaire
Nb. Itérations
AvgNMI
2 4 6 8 10
0.0 0.2 0.4 0.6
CoBoC complémentaire
Nb. Itérations
AvgNMI
2 4 6 8 10
0.1 0.2 0.3 0.4 0.5 0.6 0.7
CoBoC complémentaire
Nb. Itérations
AvgNMI
FIGURE 4.4 — Évolution de l’AvgNMI pour la combinaison de modèle et l’heuristique complémentaire.
Dans l’ordre, les données iris, parkinson et wine. Les trois lignes correspondent (1) à l’application de deux
algorithmes : KM et CLINK, (2) à l’application de quatre algorithmes : KM, SC, SLINK et CLINK, (3) à
l’application de six algorithmes : KM, FKM, SC, SLINK, ALINK et CLINK.
Évaluation interne de COBOC dans le cadre multi-vues. Les heuristiques consensus et complémentaire
ont été observées sur une exécution dans le cadre de la recherche de consensus
dans un contexte multi-vues sur le jeu de donnée mfeat (cf. figure 4.5 et 4.6).
Les résultats observés pour l’heuristique COBOC consensus (figure 4.5) sont semblables aux
observations du contexte de la combinaison de modèles. De manière flagrante, les clusterings
obtenus par la stratégie maximum peinent à s’éloigner des clusterings de base, pour la simple
raison que les paires d’individus sélectionnées sont déja regroupées de la même manière par
les algorithmes de clustering dans toutes les vues. La stratégie minimum permet d’atteindre
brièvement une solution consensus pour un faible nombre d’échanges de contraintes, mais tend
4.7. ÉVALUATION 177
davantage à produire des clusterings dissimilaires. Finalement, l’heuristique la plus pertinente
sur l’exemple présenté est bien la stratégie random. Néanmoins l’étude réalisée ne permet pas
d’identifier pourquoi c’est le cas.
Les observations issues des expériences sur l’heuristique complémentaire (figure 4.6) sont
ici sensiblement différentes, si ce n’est pour l’inefficacité de la stratégie minimum. La stratégie
random ne permet pas d’atteindre un consensus. En revanche, la stratégie maximum, elle, réussit
à l’atteindre.
On ne peut dégager la meilleure des approches à considérer dans le contexte multi-vues,
puisque la stratégie aléatoire pour l’heuristique COBOC consensus atteint les mêmes performances
en terme d’information mutuelle normalisée que la stratégie maximum pour l’heuristique
COBOC complémentaire. De plus, aucune similitude analytique ne peut être mise en évidence
entre ces deux approches. Globalement, concernant la stratégie minimum, on constate
que si celle-ci est intuitive, puisqu’elle permet d’aider globalement la décision sur les paires d’individus
pour lesquels les différents algorithmes locaux peinent à décider, elle n’est néanmoins
presque jamais efficace.
2 4 6 8 10
0.30 0.35 0.40 0.45
CoBoC consensus
Nb. Itérations
AvgNMI
2 4 6 8 10
0.25 0.30 0.35 0.40 0.45
CoBoC consensus
Nb. Itérations
AvgNMI
FIGURE 4.5 — Évolution de l’AvgNMI pour le clustering multi-vues et l’heuristique consensus. Dans
l’ordre, les données mfeat avec le même algorithme pour toutes les six vues, et mfeat avec des algorithmes
différents pour chaque vue.
178 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
2 4 6 8 10
0.10 0.15 0.20 0.25 0.30 0.35 0.40
CoBoC complémentaire
Nb. Itérations
AvgNMI
2 4 6 8 10
0.15 0.25 0.35 0.45
CoBoC complémentaire
Nb. Itérations
AvgNMI
FIGURE 4.6 — Évolution de l’AvgNMI pour le clustering multi-vues et l’heuristique complémentaire.
Dans l’ordre, les données mfeat avec le même algorithme pour toutes les six vues, et mfeat avec des
algorithmes différents pour chaque vue.
4.7. ÉVALUATION 179
Évaluation interne de ALTERBOC
L’évaluation interne d’ALTERBOC vise, contrairement à COBOC, à observer une diminution
de la valeur d’information mutuelle normalisée moyenne entre les résultats des algorithmes
locaux.
Évaluation interne de ALTERBOC dans le cadre de la multiplicité des modèles. Les heuristiques
consensus et complémentaire ont été observées sur une exécution dans le cadre de la
combinaison de modèles (cf. figure 4.7 et 4.8).
L’heuristique ALTERBOC global vise à encourager les algorithmes locaux à rechercher des
solutions de clusterings différentes. Selon cet objectif, les trois stratégies (minimum, maximum
et random) parviennent à atteindre de bonnes solutions. Cependant, la stratégie random permet
d’obtenir la meilleure tendance. Les performances des stratégies minimum et maximum sont
interverties selon les jeux de données. Enfin, dans le cas général, les clusterings alternatifs sont
obtenus plutôt pour un faible nombre d’échanges de contraintes. Un trop grand nombre de
contraintes échangées tend à reproduire une forme de consensus faible.
L’heuristique ALTERBOC complémentaire permet également d’atteindre des solutions alternatives
et les stratégies associées ont un comportement semblable à celui de la précédente heuristique.
On remarque également le danger de réaliser un nombre trop élevé d’échanges de
contraintes, notamment dans le cas du jeu de données Parkinson avec six algorithmes.
On remarque globalement que l’on peut atteindre différentes formes d’alternatives avec
toutes les stratégies. En revanche, les expériences montrent qu’il est recommandé dans ce contexte
de limiter le nombre d’échanges de contraintes entre les vues, sous peine de finir par atteindre
une solution consensus de faible qualité.
Évaluation interne de ALTERBOC dans le cadre multi-vues. Les heuristiques consensus et
complémentaire ont été observées sur une exécution dans le cadre de la recherche de clusterings
alternatifs dans un contexte de multiplicité des vues sur le jeu de donnée mfeat (cf. figure 4.9 et
4.10).
Les heuristiques ALTERBOC global et ALTERBOC complémentaire satisfont toutes les deux
l’objectif, quelles que soient les stratégies employées. L’obtention de solutions de clusterings
réellement différentes est cependant plus nette pour l’heuristique complémentaire. Pour l’heuristique
consensus, on constate qu’encore une fois la stratégie random est la meilleure pour
atteindre l’objectif, alors que la stratégie minimum atteint un meilleur ensemble de clusterings
que la stratégie maximum.
180 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
2 4 6 8 10
0.2 0.3 0.4 0.5 0.6 0.7
AlterBoC global
Nb. Itérations
AvgNMI
2 4 6 8 10
0.05 0.10 0.15 0.20 0.25 0.30 0.35
AlterBoC global
Nb. Itérations
AvgNMI
2 4 6 8 10
0.1 0.2 0.3 0.4 0.5
AlterBoC global
Nb. Itérations
AvgNMI
2 4 6 8 10
0.1 0.2 0.3 0.4 0.5 0.6 0.7
AlterBoC global
Nb. Itérations
AvgNMI
2 4 6 8 10
0.05 0.10 0.15 0.20 0.25
AlterBoC global
Nb. Itérations
AvgNMI
2 4 6 8 10
0.1 0.2 0.3 0.4 0.5
AlterBoC global
Nb. Itérations
AvgNMI
2 4 6 8 10
0.0 0.2 0.4 0.6 0.8
AlterBoC global
Nb. Itérations
AvgNMI
2 4 6 8 10
0.00 0.05 0.10 0.15 0.20 0.25 0.30
AlterBoC global
Nb. Itérations
AvgNMI
2 4 6 8 10
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 AlterBoC global
Nb. Itérations
AvgNMI
FIGURE 4.7 — Évolution de l’AvgNMI pour la combinaison de modèle et l’heuristique global. Dans
l’ordre, les données iris, parkinson et wine. Les trois lignes correspondent (1) à l’application de deux
algorithmes : KM et CLINK, (2) à l’application de quatre algorithmes : KM, SC, SLINK et CLINK, (3) à
l’application de six algorithmes : KM, FKM, SC, SLINK, ALINK et CLINK.
4.7. ÉVALUATION 181
2 4 6 8 10
0.2 0.3 0.4 0.5 0.6 0.7
AlterBoC complémentaire
Nb. Itérations
AvgNMI
2 4 6 8 10
0.05 0.10 0.15 0.20 0.25
AlterBoC complémentaire
Nb. Itérations
AvgNMI
2 4 6 8 10
0.1 0.2 0.3 0.4 0.5 0.6
AlterBoC complémentaire
Nb. Itérations
AvgNMI
2 4 6 8 10
0.1 0.2 0.3 0.4 0.5 0.6 0.7
AlterBoC complémentaire
Nb. Itérations
AvgNMI
2 4 6 8 10
0.05 0.10 0.15 0.20 0.25 0.30 0.35
AlterBoC complémentaire
Nb. Itérations
AvgNMI
2 4 6 8 10 0.1 0.2 0.3 0.4 0.5
AlterBoC complémentaire
Nb. Itérations AvgNMI
2 4 6 8 10
0.0 0.2 0.4 0.6 0.8
AlterBoC complémentaire
Nb. Itérations
AvgNMI
2 4 6 8 10 0.0 0.1 0.2 0.3 0.4 0.5 0.6
AlterBoC complémentaire
Nb. Itérations AvgNMI
2 4 6 8 10
0.0 0.1 0.2 0.3 0.4 0.5 0.6
AlterBoC complémentaire
Nb. Itérations
AvgNMI
FIGURE 4.8 — Évolution de l’AvgNMI pour la combinaison de modèle et l’heuristique complémentaire.
Dans l’ordre, les données iris, parkinson et wine. Les trois lignes correspondent (1) à l’application de deux
algorithmes : KM et CLINK, (2) à l’application de quatre algorithmes : KM, SC, SLINK et CLINK, (3) à
l’application de six algorithmes : KM, FKM, SC, SLINK, ALINK et CLINK.
182 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
2 4 6 8 10
0.10 0.15 0.20 0.25 0.30
AlterBoC global
Nb. Itérations
AvgNMI
2 4 6 8 10
0.10 0.15 0.20 0.25 0.30 0.35
AlterBoC global
Nb. Itérations
AvgNMI
FIGURE 4.9 — Évolution de l’AvgNMI pour le clustering multi-vues et l’heuristique global. Dans l’ordre,
les données mfeat avec le même algorithme pour toutes les six vues, et mfeat avec des algorithmes différents
pour chaque vue.
2 4 6 8 10
0.05 0.10 0.15 0.20 0.25 0.30
AlterBoC complémentaire
Nb. Itérations
AvgNMI
2 4 6 8 10
0.10 0.15 0.20 0.25 0.30 0.35
AlterBoC complémentaire
Nb. Itérations
AvgNMI
FIGURE 4.10 — Évolution de l’AvgNMI pour le clustering multi-vues et l’heuristique complémentaire.
Dans l’ordre, les données mfeat avec le même algorithme pour toutes les six vues, et mfeat avec des
algorithmes différents pour chaque vue.
4.7. ÉVALUATION 183
4.7.3 Évaluation externe
Évaluation externe de COBOC pour la combinaison de modèles
L’apport des deux heuristiques COBOC consensus et COBOC complémentaire ainsi que des
stratégies associées (Random, Min et Max) est d’abord observé sur les données Iris, Wine et
parkinson. Le contexte est celui de la combinaison de modèles, où un ensemble d’algorithmes
de clustering est appliqué à un jeu de donnée classique mono-vue.
Apport de la collaboration à chaque algorithme pour la combinaison de modèles. Le tableau
4.1 servant de référence dans ce paragraphe montre les résultats obtenus sur les jeux
de données Iris, Parkinson et Wine avec utilisation de six algorithmes différents. L’objectif ici
est d’observer les performances des différentes approches de recherche de consensus par COBOC
relativement à ces résultats.
% F-mesure AvgEnt NMI
Iris : Algorithmes de clustering locaux
KM vue 0 73.39 _ 3.21 0.29 _ 0.03 0.65 _ 0.02
FKM vue 1 74.52 _ 0 0.24 _ 0 0.66 _ 0
SC vue 2 73.35 _ 0 0.25 _ 0 0.63 _ 0
SLINK vue 3 68.64 _ 0 0.31 _ 0 0.59 _ 0
ALINK vue 4 72.06 _ 0 0.27 _ 0 0.65 _ 0
CLINK vue 5 72.54 _ 0 0.26 _ 0 0.65 _ 0
Wine : Algorithmes de clustering locaux
KM vue 0 92.96 _ 0.69 0.13 _ 0.01 0.87 _ 0.01
FKM vue 1 93.19 _ 0 0.13 _ 0 0.88 _ 0
SC vue 2 93.57 _ 0 0.1 _ 0 0.9 _ 0
SLINK vue 3 59.07 _ 0 0.51 _ 0 0.37 _ 0
ALINK vue 4 68.8 _ 0 0.42 _ 0 0.59 _ 0
CLINK vue 5 71.94 _ 0 0.26 _ 0 0.61 _ 0
Parkinson : Algorithmes de clustering locaux
KM vue 0 62.51 _ 2.48 0.25 _ 0 0.12 _ 0.02
FKM vue 1 62.49 _ 0 0.25 _ 0 0.12 _ 0
SC vue 2 61.3 _ 0 0.29 _ 0 0.2 _ 0
SLINK vue 3 76.14 _ 0 0.49 _ 0 0.01 _ 0
ALINK vue 4 75.22 _ 0 0.25 _ 0 0.02 _ 0
CLINK vue 5 70.8 _ 0 0.25 _ 0 0.05 _ 0
TABLEAU 4.1 — Évaluation externe de COBOC consensus sur Iris selon les résultats locaux. Chaque
clustering local est un consensus issu du processus de collaboration de COBOC.
Les tableaux 4.2 à 4.7 montrent les résultats obtenus par chaque algorithme de clustering
localement, avec collaboration par COBOC.
On constate tout d’abord que dans la grande majorité des cas, l’heuristique COBOC consensus
associée à la stratégie Max ne réalise aucun apport. Ceci est dû au fait que les couples
sélectionnés comme des contraintes ML (respectivement CL), de confiance maximale sont le
plus souvent les couples déjà regroupés ensemble (respectivement séparés) dans toutes les vues.
Cette observation par critère externe conforte les observations réalisées par l’évaluation interne.
Ce résultat n’est néanmoins pas toujours le cas, dans la mesure où quelques algorithmes de clustering
peuvent se comporter de façons différentes sur le regroupement de ces couples et être
ainsi corrigés pour se rapprocher des autres algorithmes. Dans ce contexte et avec la stratégie
Max, l’heuristique COBOC complémentaire se comporte alors de façon semblable.
184 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
La stratégie Min, quelquesoit l’heuristique COBOC consensus ou COBOC complémentaire,
tend à rapprocher les performances des différents algorithmes employés. Cependant l’apport
ne semble intéressant que pour les jeux de données difficiles pour les algorithmes classiques
(parkinson). Autrement la performance est systématiquement dégradée. Cette observation est
intéressante puisqu’elle corrobore l’observation que, sur le jeu de donnée Parkinson, la stratégie
minimum permettait d’atteindre un consensus par COBOC (cf. section 4.7.2). Ceci donne une
indication sur la pertinence de rechercher un tel consensus pour améliorer la performance des
algorithmes de clusterings que l’on souhaite combiner.
La stratégie aléatoire Random peut aider à améliorer certains algorithmes, notamment sur
Iris (Tab. 4.1) ou sur Wine (Tab. 4.4). Dans tous les cas, aucune tendance générale vers une amélioration
ne peut être dégagée à partir des heuristiques et stratégies proposées. Pris isoléments,
les algorithmes proposés, avec collaboration n’améliore pas en terme de mesure de performance
externe, les algorithmes classiques.
Iris % F-mesure AvgEnt NMI
Stratégie Random
COBOC vue 0 77.69 _ 9.91 0.25 _ 0.08 0.69 _ 0.12
COBOC vue 1 70.25 _ 17.24 0.41 _ 0.28 0.58 _ 0.25
COBOC vue 2 81.98 _ 6.2 0.22 _ 0.05 0.74 _ 0.07
COBOC vue 3 70.85 _ 4.28 0.3 _ 0.09 0.62 _ 0.08
COBOC vue 4 69.97 _ 5.82 0.33 _ 0.13 0.64 _ 0.09
COBOC vue 5 71.01 _ 8.21 0.3 _ 0.13 0.64 _ 0.11
Stratégie Min
COBOC vue 0 54.27 _ 13.5 0.64 _ 0.25 0.37 _ 0.2
COBOC vue 1 55.86 _ 12.68 0.59 _ 0.23 0.4 _ 0.18
COBOC vue 2 57.51 _ 16.22 0.54 _ 0.25 0.4 _ 0.24
COBOC vue 3 62.66 _ 11.31 0.52 _ 0.3 0.46 _ 0.25
COBOC vue 4 64.95 _ 10.77 0.42 _ 0.22 0.52 _ 0.18
COBOC vue 5 59.05 _ 13.48 0.59 _ 0.33 0.42 _ 0.24
Stratégie Max
COBOC vue 0 73.42 _ 3.22 0.29 _ 0.03 0.65 _ 0.02
COBOC vue 1 74.52 _ 0 0.24 _ 0 0.66 _ 0
COBOC vue 2 71.31 _ 0 0.29 _ 0 0.61 _ 0
COBOC vue 3 68.29 _ 0 0.32 _ 0 0.58 _ 0
COBOC vue 4 59.13 _ 0 0.39 _ 0 0.45 _ 0
COBOC vue 5 73.07 _ 0 0.32 _ 0 0.69 _ 0
TABLEAU 4.2 — Évaluation externe de COBOC consensus sur Iris selon les résultats locaux. Chaque
clustering local est un consensus issu du processus de collaboration de COBOC.
4.7. ÉVALUATION 185
Iris % F-mesure AvgEnt NMI
Stratégie Random
COBOC vue 0 74.39 _ 2.37 0.27 _ 0.05 0.65 _ 0.02
COBOC vue 1 72.09 _ 8.28 0.3 _ 0.12 0.61 _ 0.13
COBOC vue 2 68.95 _ 7.69 0.34 _ 0.14 0.56 _ 0.12
COBOC vue 3 68.47 _ 5.39 0.34 _ 0.1 0.57 _ 0.11
COBOC vue 4 67.46 _ 7.55 0.4 _ 0.21 0.58 _ 0.14
COBOC vue 5 66.37 _ 9.78 0.39 _ 0.18 0.56 _ 0.14
Stratégie Min
COBOC vue 0 67.59 _ 6.12 0.34 _ 0.12 0.56 _ 0.1
COBOC vue 1 61.79 _ 13.94 0.47 _ 0.26 0.47 _ 0.2
COBOC vue 2 48.95 _ 11.06 0.75 _ 0.23 0.25 _ 0.18
COBOC vue 3 68.53 _ 5.35 0.36 _ 0.15 0.58 _ 0.11
COBOC vue 4 62.97 _ 9.26 0.42 _ 0.15 0.49 _ 0.17
COBOC vue 5 53.23 _ 11.02 0.7 _ 0.25 0.32 _ 0.2
Stratégie Max
COBOC vue 0 72.59 _ 2.64 0.27 _ 0.03 0.64 _ 0.02
COBOC vue 1 74.52 _ 0 0.24 _ 0 0.66 _ 0
COBOC vue 2 71.31 _ 0 0.29 _ 0 0.61 _ 0
COBOC vue 3 68.29 _ 0 0.32 _ 0 0.58 _ 0
COBOC vue 4 60.35 _ 1 0.39 _ 0.01 0.44 _ 0
COBOC vue 5 74 _ 0.76 0.33 _ 0.01 0.66 _ 0.02
TABLEAU 4.3 —Évaluation externe de COBOC complémentaire sur Iris selon les résultats locaux. Chaque
clustering local est un consensus issu du processus de collaboration de COBOC.
Wine % F-mesure AvgEnt NMI
Stratégie Random
COBOC vue 0 77.67 _ 5.63 0.28 _ 0.06 0.68 _ 0.08
COBOC vue 1 78.36 _ 5.18 0.26 _ 0.02 0.68 _ 0.06
COBOC vue 2 77.93 _ 5.7 0.28 _ 0.04 0.67 _ 0.06
COBOC vue 3 58.56 _ 4.99 0.51 _ 0.21 0.4 _ 0.11
COBOC vue 4 69.47 _ 12.74 0.39 _ 0.22 0.57 _ 0.22
COBOC vue 5 71.27 _ 7.24 0.36 _ 0.18 0.62 _ 0.09
Stratégie Min
COBOC vue 0 62.65 _ 4.56 0.52 _ 0.14 0.47 _ 0.06
COBOC vue 1 60.96 _ 3.48 0.47 _ 0.06 0.44 _ 0.04
COBOC vue 2 68.44 _ 6.81 0.41 _ 0.1 0.53 _ 0.08
COBOC vue 3 54.39 _ 4.97 0.77 _ 0.28 0.28 _ 0.1
COBOC vue 4 56.03 _ 6.36 0.76 _ 0.27 0.27 _ 0.19
COBOC vue 5 55.13 _ 7.34 0.59 _ 0.19 0.33 _ 0.12
Stratégie Max
COBOC vue 0 92.96 _ 0.69 0.13 _ 0.01 0.87 _ 0.01
COBOC vue 1 93.19 _ 0 0.13 _ 0 0.88 _ 0
COBOC vue 2 93.57 _ 0 0.1 _ 0 0.9 _ 0
COBOC vue 3 61.34 _ 0 0.4 _ 0 0.47 _ 0
COBOC vue 4 59.42 _ 0 0.56 _ 0 0.37 _ 0
COBOC vue 5 67.7 _ 0 0.42 _ 0 0.58 _ 0
TABLEAU 4.4 — Évaluation externe de COBOC consensus sur Wine selon les résultats locaux. Chaque
clustering local est un consensus issu du processus de collaboration de COBOC.
186 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
Wine % F-mesure AvgEnt NMI
Stratégie Random
COBOC vue 0 75.12 _ 4.82 0.31 _ 0.04 0.64 _ 0.06
COBOC vue 1 77.24 _ 3.76 0.29 _ 0.03 0.66 _ 0.05
COBOC vue 2 78.78 _ 5.05 0.31 _ 0.05 0.68 _ 0.06
COBOC vue 3 59.39 _ 4.5 0.48 _ 0.19 0.42 _ 0.11
COBOC vue 4 68.25 _ 8.8 0.42 _ 0.21 0.54 _ 0.19
COBOC vue 5 73.06 _ 8.45 0.37 _ 0.18 0.63 _ 0.12
Stratégie Min
COBOC vue 0 67.19 _ 8.4 0.41 _ 0.12 0.51 _ 0.12
COBOC vue 1 63.14 _ 8.36 0.47 _ 0.08 0.44 _ 0.12
COBOC vue 2 77.9 _ 5.85 0.32 _ 0.05 0.65 _ 0.07
COBOC vue 3 55.03 _ 6.44 0.83 _ 0.25 0.24 _ 0.18
COBOC vue 4 59.9 _ 5.28 0.53 _ 0.28 0.4 _ 0.17
COBOC vue 5 59.12 _ 7.23 0.58 _ 0.23 0.4 _ 0.14
Stratégie Max
COBOC vue 0 92.96 _ 0.69 0.13 _ 0.01 0.87 _ 0.01
COBOC vue 1 93.19 _ 0 0.13 _ 0 0.88 _ 0
COBOC vue 2 93.57 _ 0 0.1 _ 0 0.9 _ 0
COBOC vue 3 61.34 _ 0 0.4 _ 0 0.47 _ 0
COBOC vue 4 59.42 _ 0 0.56 _ 0 0.37 _ 0
COBOC vue 5 67.7 _ 0 0.42 _ 0 0.58 _ 0
TABLEAU 4.5 — Évaluation externe de COBOC complémentaire sur Wine selon les résultats locaux.
Chaque clustering local est un consensus issu du processus de collaboration de COBOC.
parkinson % F-mesure AvgEnt NMI
Stratégie Random
COBOC vue 0 70.76 _ 0.29 0.25 _ 0 0.05 _ 0
COBOC vue 1 70.97 _ 0.21 0.25 _ 0 0.05 _ 0
COBOC vue 2 60.28 _ 0.9 0.32 _ 0.01 0.15 _ 0.01
COBOC vue 3 75.77 _ 0.45 0.39 _ 0.12 0.01 _ 0
COBOC vue 4 75.22 _ 0 0.25 _ 0 0.02 _ 0
COBOC vue 5 74.69 _ 1.22 0.25 _ 0 0.02 _ 0.01
Stratégie Min
COBOC vue 0 71.16 _ 0.42 0.25 _ 0 0.04 _ 0.01
COBOC vue 1 65.77 _ 6.09 0.26 _ 0.02 0.09 _ 0.06
COBOC vue 2 65.75 _ 5.55 0.32 _ 0.07 0.08 _ 0.06
COBOC vue 3 75.82 _ 1.88 0.38 _ 0.12 0.04 _ 0.06
COBOC vue 4 73.37 _ 4.89 0.3 _ 0.1 0.04 _ 0.06
COBOC vue 5 72.61 _ 3.33 0.25 _ 0 0.04 _ 0.02
Stratégie Max
COBOC vue 0 62.51 _ 2.48 0.25 _ 0 0.12 _ 0.02
COBOC vue 1 62.49 _ 0 0.25 _ 0 0.12 _ 0
COBOC vue 2 61.3 _ 0 0.29 _ 0 0.2 _ 0
COBOC vue 3 76.14 _ 0 0.49 _ 0 0.01 _ 0
COBOC vue 4 75.22 _ 0 0.25 _ 0 0.02 _ 0
COBOC vue 5 70.8 _ 0 0.25 _ 0 0.05 _ 0
TABLEAU 4.6 —Évaluation externe de COBOC consensus sur parkinson selon les résultats locaux. Chaque
clustering local est un consensus issu du processus de collaboration de COBOC.
4.7. ÉVALUATION 187
parkinson % F-mesure AvgEnt NMI
Stratégie Random
COBOC vue 0 70.97 _ 0.28 0.25 _ 0 0.05 _ 0
COBOC vue 1 70.97 _ 0.21 0.25 _ 0 0.05 _ 0
COBOC vue 2 60.02 _ 0.71 0.32 _ 0.02 0.15 _ 0.02
COBOC vue 3 75.96 _ 0.37 0.44 _ 0.1 0.01 _ 0
COBOC vue 4 75.22 _ 0 0.25 _ 0 0.02 _ 0
COBOC vue 5 74.16 _ 1.83 0.25 _ 0 0.03 _ 0.01
Stratégie Min
COBOC vue 0 64.05 _ 5.73 0.27 _ 0.02 0.11 _ 0.06
COBOC vue 1 62.36 _ 5.54 0.27 _ 0.02 0.14 _ 0.06
COBOC vue 2 61.7 _ 3.09 0.31 _ 0.02 0.15 _ 0.05
COBOC vue 3 73.61 _ 1.67 0.3 _ 0.1 0.03 _ 0.01
COBOC vue 4 74.08 _ 2.71 0.27 _ 0.07 0.03 _ 0.02
COBOC vue 5 70.34 _ 4.68 0.25 _ 0 0.06 _ 0.04
Stratégie Max
COBOC vue 0 62.51 _ 2.48 0.25 _ 0 0.12 _ 0.02
COBOC vue 1 62.49 _ 0 0.25 _ 0 0.12 _ 0
COBOC vue 2 61.3 _ 0 0.29 _ 0 0.2 _ 0
COBOC vue 3 76.14 _ 0 0.49 _ 0 0.01 _ 0
COBOC vue 4 75.22 _ 0 0.25 _ 0 0.02 _ 0
COBOC vue 5 70.8 _ 0 0.25 _ 0 0.05 _ 0
TABLEAU 4.7 — Évaluation externe de COBOC complémentaire sur parkinson selon les résultats locaux.
Chaque clustering local est un consensus issu du processus de collaboration de COBOC.
Apport de la fusion finale par le noyau K1 et K2. Le tableaux 4.8 servant de référence dans
ce paragraphe montre les résultats obtenus sur les jeux de données Iris, Parkinson et Wine avec
application pour chacun de l’algorithme COFKM (2.4.2) dans ses déclinaisons a priori et a posteriori.
L’objectif ici est d’observer l’impact des différentes approches de recherche de consensus
par COBOC sur différentes solutions de fusion adaptées à la combinaison de modèles pour la
recherche de consensus, et relativement aux résultats des approches multi-vues.
% F-mesure AvgEnt NMI
Iris : Approche multi-vues COFKM
COFKM post 70.53 _ 6.28 0.34 _ 0.14 0.62 _ 0.11
COFKM 74.52 _ 0 0.24 _ 0 0.66 _ 0
COFKM concat 74.52 _ 0 0.24 _ 0 0.66 _ 0
Wine : Approche multi-vues COFKM
COFKM post 81.28 _ 11 0.24 _ 0.09 0.73 _ 0.13
COFKM 93.19 _ 0 0.13 _ 0 0.88 _ 0
COFKM concat 93.19 _ 0 0.13 _ 0 0.88 _ 0
Parkinson : Approche multi-vues COFKM
COFKM post 65.12 _ 4.38 0.25 _ 0 0.1 _ 0.03
COFKM 62.06 _ 0.34 0.25 _ 0 0.12 _ 0
COFKM concat 62.06 _ 0.34 0.25 _ 0 0.12 _ 0
TABLEAU 4.8 — Évaluation externe de COFKM dans le contexte de la combinaison de modèles.
La fusion finale permet de construire une solution unique consensus entre les différentes
solutions locales obtenues. Dans ce paragraphe sont étudiés les noyaux K1 (4.41) et K2 (4.42)
188 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
considérés comme des mesures de similarité sur les paires d’individus. Deux individus xi et xj
sont alors similaires si ils sont souvent regroupés ensemble par les différents algorithmes de
clustering fA(r)g.
À partir de ces mesures de similarité, des algorithmes spécifiques sont utilisés pour construire
le clustering final. Les algorithmes implémentés sont SLINK, ALINK, CLINK, KKM et KFKM. L’adjonction
de la fusion finale avec COBOC place l’approche dans un contexte multi-vues. Les
différents algorithmes employés pour la fusion sont alors comparés à l’approche multi-vues
COFKM appliquée sur les donnnées classiques. Les différentes vues des données sont identiques
ici car les jeux de données employés sont mono-vue. Il sont alors recopiés autant de fois que
d’algorithmes ont été utilisés dans l’approche COBOC.
Globalement, pour le noyau K1, la stratégie Max se comporte bien quelque soit l’heuristique.
En revanche les autres stratégies et heuristiques ne parviennent pas à dépasser l’approche
multi-vue de référence (Tab. 4.8). Une amélioration flagrante est néanmoins obtenue pour l’heuristique
COBOC consensus et la stratégie Random (Tab. 4.9). Dans ce dernier cas la performance
obtenue dépasse également celles des approches classiques (Tab. 4.1). La stratégie Min n’est
pas efficace.
Concernant le noyau K2, les différentes stratégies sont plus ou moins efficaces selon les
jeux de données et les critères d’évaluations. La stratégie Random est plus efficace sur Iris (Tab.
4.9 ou Tab. 4.10 par le clustering par lien moyen) ou bien encore sur parkinson pour l’heuristique
COBOC consensus (meilleure F-mesure ou meilleure NMI, Tab. 4.13). La stratégie Min
est encore une fois rarement efficace, mais parvient à avoir de bonnes performances sur parkinson
pour l’heuristique COBOC complémentaire. Le résultat le plus intéressant est l’obtention du
meilleur score sur Wine pour la stratégie Max, meilleur que l’approche COFKM (Tab. 4.8), ou
que l’application des algorithmes classiques (Tab. 4.1).
4.7. ÉVALUATION 189
Iris % F-mesure AvgEnt NMI
Similarité K1 - Stratégie Random
COBOC SLINK 74.33 _ 7.18 0.29 _ 0.12 0.67 _ 0.1
COBOC ALINK 75.84 _ 6.77 0.25 _ 0.06 0.69 _ 0.08
COBOC CLINK 75.37 _ 6.64 0.27 _ 0.05 0.68 _ 0.08
COBOC KKM 77.38 _ 7.19 0.25 _ 0.05 0.7 _ 0.08
COBOC KFKM 78.22 _ 8.24 0.27 _ 0.11 0.71 _ 0.09
COBOC SC 74.05 _ 11.13 0.42 _ 0.25 0.65 _ 0.18
Similarité K1 - Stratégie Min
COBOC SLINK 60.9 _ 11.66 0.52 _ 0.26 0.44 _ 0.22
COBOC ALINK 63.08 _ 12.09 0.5 _ 0.29 0.48 _ 0.21
COBOC CLINK 60.43 _ 12.51 0.54 _ 0.3 0.44 _ 0.22
COBOC KKM 58.11 _ 13.69 0.56 _ 0.3 0.42 _ 0.22
COBOC KFKM 60.22 _ 12.59 0.51 _ 0.25 0.46 _ 0.18
COBOC SC 64.46 _ 10.55 0.53 _ 0.24 0.55 _ 0.16
Similarité K1 - Stratégie Max
COBOC SLINK 71.17 _ 2.13 0.26 _ 0.01 0.62 _ 0.03
COBOC ALINK 72.67 _ 0.64 0.29 _ 0.09 0.65 _ 0.02
COBOC CLINK 73.44 _ 1.13 0.26 _ 0.03 0.66 _ 0.01
COBOC KKM 72.87 _ 2.21 0.31 _ 0.13 0.64 _ 0.01
COBOC KFKM 73.09 _ 0.52 0.26 _ 0.01 0.64 _ 0.01
COBOC SC 70.68 _ 4.99 0.3 _ 0.05 0.6 _ 0.06
Similarité K2 - Stratégie Random
COBOC SLINK 73.31 _ 6.22 0.32 _ 0.13 0.66 _ 0.07
COBOC ALINK 75.74 _ 5.77 0.29 _ 0.13 0.69 _ 0.06
COBOC CLINK 74.32 _ 5.67 0.27 _ 0.06 0.67 _ 0.07
COBOC KKM 73.22 _ 9.59 0.39 _ 0.23 0.66 _ 0.12
COBOC KFKM 78.67 _ 6.92 0.27 _ 0.11 0.71 _ 0.08
COBOC SC 72.92 _ 10.77 0.45 _ 0.27 0.65 _ 0.17
Similarité K2 - Stratégie Min
COBOC SLINK 67.82 _ 8.01 0.38 _ 0.23 0.56 _ 0.15
COBOC ALINK 70.03 _ 7.53 0.36 _ 0.2 0.61 _ 0.13
COBOC CLINK 70.63 _ 6.12 0.29 _ 0.1 0.62 _ 0.08
COBOC KKM 64.9 _ 9.92 0.49 _ 0.23 0.55 _ 0.15
COBOC KFKM 68.08 _ 8.81 0.33 _ 0.15 0.57 _ 0.12
COBOC SC 66.66 _ 8.4 0.49 _ 0.24 0.58 _ 0.14
Similarité K2 - Stratégie Max
COBOC SLINK 70.64 _ 1.55 0.3 _ 0.01 0.61 _ 0.02
COBOC ALINK 71.66 _ 0.76 0.31 _ 0.08 0.63 _ 0.03
COBOC CLINK 72.32 _ 0.91 0.28 _ 0.01 0.62 _ 0.01
COBOC KKM 72.05 _ 3.78 0.31 _ 0.13 0.63 _ 0.06
COBOC KFKM 73.22 _ 0.68 0.26 _ 0.01 0.64 _ 0.01
COBOC SC 71.59 _ 2.1 0.33 _ 0.13 0.62 _ 0.01
TABLEAU 4.9 — Évaluation externe de COBOC consensus sur Iris selon différentes fusions finales pour
les noyaux K1 et K2.
190 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
Iris % F-mesure AvgEnt NMI
Similarité K1 - Stratégie Random
COBOC SLINK 71.97 _ 5.28 0.3 _ 0.07 0.62 _ 0.09
COBOC ALINK 73.48 _ 2.3 0.36 _ 0.16 0.66 _ 0.03
COBOC CLINK 73.94 _ 2.56 0.29 _ 0.05 0.65 _ 0.03
COBOC KKM 72.35 _ 4.73 0.31 _ 0.1 0.63 _ 0.06
COBOC KFKM 74.09 _ 1.6 0.3 _ 0.04 0.64 _ 0.02
COBOC SC 69.82 _ 6.31 0.47 _ 0.22 0.62 _ 0.07
Similarité K1 - Stratégie Min
COBOC SLINK 65.87 _ 5.7 0.36 _ 0.1 0.53 _ 0.1
COBOC ALINK 71.47 _ 2.29 0.31 _ 0.09 0.62 _ 0.03
COBOC CLINK 69.1 _ 7.19 0.32 _ 0.13 0.58 _ 0.12
COBOC KKM 66.81 _ 7.23 0.34 _ 0.11 0.55 _ 0.11
COBOC KFKM 70.67 _ 2.43 0.27 _ 0.03 0.6 _ 0.03
COBOC SC 70.09 _ 4.13 0.33 _ 0.15 0.61 _ 0.05
Similarité K1 - Stratégie Max
COBOC SLINK 65.63 _ 7.99 0.36 _ 0.11 0.51 _ 0.14
COBOC ALINK 73.56 _ 0.8 0.28 _ 0.09 0.65 _ 0.02
COBOC CLINK 71.79 _ 1.64 0.27 _ 0.01 0.63 _ 0.01
COBOC KKM 73.2 _ 1.76 0.28 _ 0.09 0.64 _ 0.02
COBOC KFKM 73.7 _ 0.67 0.26 _ 0.02 0.64 _ 0.01
COBOC SC 72.86 _ 1.63 0.32 _ 0.13 0.63 _ 0.01
Similarité K2 - Stratégie Random
COBOC SLINK 73.17 _ 2.4 0.28 _ 0.03 0.64 _ 0.03
COBOC ALINK 74.71 _ 2.05 0.28 _ 0.04 0.67 _ 0.02
COBOC CLINK 73.64 _ 2.65 0.27 _ 0.05 0.65 _ 0.03
COBOC KKM 71.87 _ 6.34 0.36 _ 0.17 0.62 _ 0.1
COBOC KFKM 73.81 _ 2.3 0.31 _ 0.09 0.65 _ 0.02
COBOC SC 68.98 _ 5.9 0.49 _ 0.22 0.61 _ 0.07
Similarité K2 - Stratégie Min
COBOC SLINK 70.7 _ 2.04 0.29 _ 0.02 0.62 _ 0.03
COBOC ALINK 71.28 _ 1.79 0.31 _ 0.08 0.63 _ 0.03
COBOC CLINK 71.93 _ 1.95 0.28 _ 0.03 0.63 _ 0.02
COBOC KKM 69.29 _ 4.87 0.34 _ 0.14 0.6 _ 0.06
COBOC KFKM 71.13 _ 2.2 0.27 _ 0.03 0.61 _ 0.02
COBOC SC 69.89 _ 3.01 0.4 _ 0.19 0.62 _ 0.02
Similarité K2 - Stratégie Max
COBOC SLINK 72.32 _ 0.91 0.28 _ 0.01 0.62 _ 0.01
COBOC ALINK 72.4 _ 0.66 0.27 _ 0.01 0.64 _ 0.01
COBOC CLINK 71.9 _ 0.68 0.29 _ 0.01 0.62 _ 0.01
COBOC KKM 70.25 _ 7.75 0.36 _ 0.22 0.59 _ 0.13
COBOC KFKM 74.38 _ 0.41 0.24 _ 0.01 0.66 _ 0.01
COBOC SC 72.22 _ 1.58 0.3 _ 0.09 0.62 _ 0.01
TABLEAU 4.10 — Évaluation externe de COBOC complémentaire sur Iris selon différentes fusions finales
pour les noyaux K1 et K2.
4.7. ÉVALUATION 191
Wine % F-mesure AvgEnt NMI
Similarité K1 - Stratégie Random
COBOC SLINK 71.56 _ 7.02 0.29 _ 0.09 0.64 _ 0.08
COBOC ALINK 71.48 _ 5.08 0.31 _ 0.08 0.63 _ 0.07
COBOC CLINK 73.24 _ 4.87 0.28 _ 0.08 0.66 _ 0.05
COBOC KKM 74.28 _ 9.86 0.32 _ 0.09 0.63 _ 0.13
COBOC KFKM 79 _ 4.72 0.27 _ 0.04 0.7 _ 0.05
COBOC SC 81.35 _ 8.57 0.23 _ 0.05 0.73 _ 0.1
Similarité K1 - Stratégie Min
COBOC SLINK 52.63 _ 5.83 0.79 _ 0.21 0.32 _ 0.13
COBOC ALINK 66.79 _ 9.7 0.47 _ 0.2 0.5 _ 0.18
COBOC CLINK 60.74 _ 11.4 0.55 _ 0.29 0.42 _ 0.22
COBOC KKM 67.79 _ 10.12 0.37 _ 0.11 0.54 _ 0.15
COBOC KFKM 73.64 _ 8.98 0.37 _ 0.14 0.61 _ 0.11
COBOC SC 75.9 _ 10.47 0.31 _ 0.08 0.65 _ 0.11
Similarité K1 - Stratégie Max
COBOC SLINK 86.68 _ 0 0.17 _ 0 0.8 _ 0
COBOC ALINK 90.59 _ 3.19 0.15 _ 0.02 0.85 _ 0.04
COBOC CLINK 90.59 _ 3.19 0.15 _ 0.02 0.85 _ 0.04
COBOC KKM 91.08 _ 1.66 0.15 _ 0.01 0.85 _ 0.02
COBOC KFKM 90.46 _ 1.02 0.16 _ 0.01 0.84 _ 0.01
COBOC SC 70.57 _ 0.96 0.28 _ 0.03 0.67 _ 0.03
Similarité K2 - Stratégie Random
COBOC SLINK 73.81 _ 8.61 0.28 _ 0.1 0.64 _ 0.12
COBOC ALINK 73.54 _ 4.79 0.29 _ 0.08 0.67 _ 0.05
COBOC CLINK 79.71 _ 5.94 0.24 _ 0.16 0.74 _ 0.06
COBOC KKM 75.53 _ 7.86 0.34 _ 0.15 0.66 _ 0.09
COBOC KFKM 80.1 _ 4.73 0.26 _ 0.03 0.71 _ 0.05
COBOC SC 77 _ 15.61 0.32 _ 0.24 0.66 _ 0.24
Similarité K2 - Stratégie Min
COBOC SLINK 64.84 _ 5.11 0.47 _ 0.14 0.52 _ 0.1
COBOC ALINK 63.54 _ 9.89 0.6 _ 0.29 0.48 _ 0.17
COBOC CLINK 65.99 _ 10.05 0.49 _ 0.23 0.53 _ 0.19
COBOC KKM 75.72 _ 11.59 0.29 _ 0.07 0.65 _ 0.13
COBOC KFKM 85.74 _ 4.6 0.23 _ 0.06 0.76 _ 0.06
COBOC SC 86.78 _ 9.4 0.19 _ 0.08 0.8 _ 0.1
Similarité K2 - Stratégie Max
COBOC SLINK 70.88 _ 0.88 0.37 _ 0.02 0.6 _ 0.02
COBOC ALINK 86.66 _ 9.97 0.16 _ 0.04 0.81 _ 0.1
COBOC CLINK 86.68 _ 0 0.17 _ 0 0.8 _ 0
COBOC KKM 83.95 _ 11.93 0.21 _ 0.11 0.77 _ 0.13
COBOC KFKM 91.31 _ 0.66 0.14 _ 0.01 0.85 _ 0.01
COBOC SC 94.6 _ 0 0.08 _ 0 0.91 _ 0
TABLEAU 4.11 —Évaluation externe de COBOC consensus sur Wine selon différentes fusions finales pour
les noyaux K1 et K2.
192 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
Wine % F-mesure AvgEnt NMI
Similarité K1 - Stratégie Random
COBOC SLINK 72.19 _ 5.55 0.29 _ 0.09 0.64 _ 0.08
COBOC ALINK 70.82 _ 3.37 0.33 _ 0.07 0.64 _ 0.04
COBOC CLINK 70.29 _ 8.79 0.36 _ 0.18 0.61 _ 0.14
COBOC KKM 78.59 _ 7.4 0.29 _ 0.2 0.69 _ 0.11
COBOC KFKM 81.05 _ 3.02 0.24 _ 0.03 0.73 _ 0.04
COBOC SC 83.65 _ 7.26 0.22 _ 0.05 0.76 _ 0.07
Similarité K1 - Stratégie Min
COBOC SLINK 61.11 _ 5.62 0.58 _ 0.21 0.44 _ 0.11
COBOC ALINK 66.89 _ 9.36 0.53 _ 0.27 0.5 _ 0.19
COBOC CLINK 65.77 _ 9.03 0.53 _ 0.28 0.49 _ 0.19
COBOC KKM 74.1 _ 8 0.32 _ 0.1 0.62 _ 0.11
COBOC KFKM 79.29 _ 7.47 0.29 _ 0.1 0.68 _ 0.1
COBOC SC 79.6 _ 7.57 0.26 _ 0.06 0.7 _ 0.08
Similarité K1 - Stratégie Max
COBOC SLINK 86.68 _ 0 0.17 _ 0 0.8 _ 0
COBOC ALINK 90.59 _ 3.19 0.15 _ 0.02 0.85 _ 0.04
COBOC CLINK 90.59 _ 3.19 0.15 _ 0.02 0.85 _ 0.04
COBOC KKM 91.28 _ 1.5 0.15 _ 0.01 0.85 _ 0.02
COBOC KFKM 90.46 _ 1.02 0.16 _ 0.01 0.84 _ 0.01
COBOC SC 70.57 _ 0.96 0.28 _ 0.03 0.67 _ 0.03
Similarité K2 - Stratégie Random
COBOC SLINK 69.95 _ 4.86 0.31 _ 0.09 0.6 _ 0.08
COBOC ALINK 69.57 _ 3.87 0.38 _ 0.12 0.61 _ 0.06
COBOC CLINK 74.55 _ 6.23 0.26 _ 0.08 0.69 _ 0.07
COBOC KKM 80.73 _ 5.5 0.24 _ 0.07 0.73 _ 0.06
COBOC KFKM 81.84 _ 2.59 0.24 _ 0.03 0.74 _ 0.03
COBOC SC 77.42 _ 17.17 0.32 _ 0.26 0.67 _ 0.24
Similarité K2 - Stratégie Min
COBOC SLINK 62.67 _ 5.52 0.49 _ 0.19 0.45 _ 0.12
COBOC ALINK 70.65 _ 12.39 0.45 _ 0.29 0.57 _ 0.2
COBOC CLINK 70.56 _ 8.01 0.39 _ 0.18 0.6 _ 0.1
COBOC KKM 79.54 _ 7.78 0.28 _ 0.09 0.69 _ 0.1
COBOC KFKM 83.14 _ 5.51 0.25 _ 0.07 0.73 _ 0.08
COBOC SC 86.02 _ 5.1 0.19 _ 0.05 0.79 _ 0.05
Similarité K2 - Stratégie Max
COBOC SLINK 70.88 _ 0.88 0.37 _ 0.02 0.6 _ 0.02
COBOC ALINK 86.66 _ 9.97 0.16 _ 0.04 0.81 _ 0.1
COBOC CLINK 86.68 _ 0 0.17 _ 0 0.8 _ 0
COBOC KKM 88.93 _ 8.27 0.17 _ 0.08 0.82 _ 0.1
COBOC KFKM 91.31 _ 0.66 0.14 _ 0.01 0.85 _ 0.01
COBOC SC 94.6 _ 0 0.08 _ 0 0.91 _ 0
TABLEAU 4.12—Évaluation externe de COBOC complémentaire surWine selon différentes fusions finales
pour les noyaux K1 et K2.
4.7. ÉVALUATION 193
parkinson % F-mesure AvgEnt NMI
Similarité K1 - Stratégie Random
COBOC SLINK 75.22 _ 0 0.25 _ 0 0.02 _ 0
COBOC ALINK 74.64 _ 1.34 0.25 _ 0 0.02 _ 0.01
COBOC CLINK 74.64 _ 1.34 0.25 _ 0 0.02 _ 0.01
COBOC KKM 60.28 _ 0.9 0.32 _ 0.01 0.15 _ 0.01
COBOC KFKM 60.28 _ 0.9 0.32 _ 0.01 0.15 _ 0.01
COBOC SC 60.28 _ 0.9 0.32 _ 0.01 0.15 _ 0.01
Similarité K1 - Stratégie Min
COBOC SLINK 74.06 _ 2.68 0.31 _ 0.1 0.04 _ 0.05
COBOC ALINK 70.82 _ 4.51 0.25 _ 0.01 0.05 _ 0.05
COBOC CLINK 71.29 _ 4.65 0.25 _ 0 0.05 _ 0.05
COBOC KKM 66.32 _ 6.84 0.31 _ 0.07 0.1 _ 0.07
COBOC KFKM 64.94 _ 5.14 0.29 _ 0.05 0.09 _ 0.06
COBOC SC 66.96 _ 5.24 0.32 _ 0.06 0.06 _ 0.06
Similarité K1 - Stratégie Max
COBOC SLINK 76.05 _ 0.28 0.47 _ 0.07 0.01 _ 0
COBOC ALINK 66.82 _ 1.19 0.25 _ 0 0.08 _ 0.01
COBOC CLINK 67.3 _ 2.64 0.25 _ 0 0.08 _ 0.02
COBOC KKM 61.49 _ 0.19 0.27 _ 0.02 0.16 _ 0.04
COBOC KFKM 61.46 _ 0.19 0.27 _ 0.02 0.17 _ 0.04
COBOC SC 62.88 _ 4.73 0.31 _ 0.06 0.18 _ 0.06
Similarité K2 - Stratégie Random
COBOC SLINK 75.31 _ 0.28 0.27 _ 0.07 0.02 _ 0
COBOC ALINK 75.22 _ 0 0.25 _ 0 0.02 _ 0
COBOC CLINK 71.63 _ 1.2 0.25 _ 0 0.05 _ 0.01
COBOC KKM 61.38 _ 3.26 0.31 _ 0.03 0.14 _ 0.03
COBOC KFKM 60.28 _ 0.9 0.32 _ 0.01 0.15 _ 0.01
COBOC SC 60.28 _ 0.9 0.32 _ 0.01 0.15 _ 0.01
Similarité K2 - Stratégie Min
COBOC SLINK 74.2 _ 1.54 0.27 _ 0.07 0.02 _ 0.01
COBOC ALINK 71.91 _ 4.68 0.27 _ 0.07 0.04 _ 0.04
COBOC CLINK 71.51 _ 2.24 0.25 _ 0 0.04 _ 0.02
COBOC KKM 63.14 _ 4.79 0.27 _ 0.02 0.11 _ 0.06
COBOC KFKM 60.77 _ 4.3 0.32 _ 0.06 0.09 _ 0.07
COBOC SC 65.78 _ 5.46 0.34 _ 0.08 0.07 _ 0.05
Similarité K2 - Stratégie Max
COBOC SLINK 75.22 _ 0 0.25 _ 0 0.02 _ 0
COBOC ALINK 75.22 _ 0 0.25 _ 0 0.02 _ 0
COBOC CLINK 75.22 _ 0 0.25 _ 0 0.02 _ 0
COBOC KKM 61.49 _ 0.19 0.27 _ 0.02 0.16 _ 0.04
COBOC KFKM 61.3 _ 0 0.29 _ 0 0.2 _ 0
COBOC SC 61.3 _ 0 0.29 _ 0 0.2 _ 0
TABLEAU 4.13 — Évaluation externe de COBOC consensus sur parkinson selon différentes fusions finales
pour les noyaux K1 et K2.
194 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
parkinson % F-mesure AvgEnt NMI
Similarité K1 - Stratégie Random
COBOC SLINK 74.38 _ 1.69 0.25 _ 0 0.02 _ 0.01
COBOC ALINK 74.24 _ 1.67 0.25 _ 0 0.03 _ 0.01
COBOC CLINK 74.24 _ 1.67 0.25 _ 0 0.03 _ 0.01
COBOC KKM 62.15 _ 4.38 0.3 _ 0.03 0.13 _ 0.04
COBOC KFKM 61.1 _ 3.31 0.31 _ 0.03 0.14 _ 0.04
COBOC SC 60.02 _ 0.71 0.32 _ 0.02 0.15 _ 0.02
Similarité K1 - Stratégie Min
COBOC SLINK 71.38 _ 5.39 0.28 _ 0.07 0.07 _ 0.09
COBOC ALINK 67.94 _ 5.88 0.26 _ 0.02 0.09 _ 0.07
COBOC CLINK 70.88 _ 2.48 0.25 _ 0 0.05 _ 0.02
COBOC KKM 62.58 _ 5.26 0.27 _ 0.02 0.15 _ 0.07
COBOC KFKM 60.76 _ 3.71 0.28 _ 0.02 0.17 _ 0.05
COBOC SC 61.68 _ 3.16 0.31 _ 0.02 0.14 _ 0.05
Similarité K1 - Stratégie Max
COBOC SLINK 76.05 _ 0.28 0.47 _ 0.07 0.01 _ 0
COBOC ALINK 66.82 _ 1.19 0.25 _ 0 0.08 _ 0.01
COBOC CLINK 67.3 _ 2.64 0.25 _ 0 0.08 _ 0.02
COBOC KKM 61.54 _ 0.36 0.27 _ 0.02 0.17 _ 0.04
COBOC KFKM 61.38 _ 0.15 0.28 _ 0.02 0.19 _ 0.03
COBOC SC 62.88 _ 4.73 0.31 _ 0.06 0.18 _ 0.06
Similarité K2 - Stratégie Random
COBOC SLINK 75.41 _ 0.37 0.3 _ 0.1 0.02 _ 0
COBOC ALINK 75.22 _ 0 0.25 _ 0 0.02 _ 0
COBOC CLINK 71.27 _ 0.13 0.25 _ 0 0.05 _ 0
COBOC KKM 61.08 _ 3.32 0.31 _ 0.03 0.13 _ 0.03
COBOC KFKM 60.02 _ 0.71 0.32 _ 0.02 0.15 _ 0.02
COBOC SC 60.02 _ 0.71 0.32 _ 0.02 0.15 _ 0.02
Similarité K2 - Stratégie Min
COBOC SLINK 72.77 _ 3.37 0.28 _ 0.08 0.04 _ 0.04
COBOC ALINK 71.58 _ 4.43 0.25 _ 0.01 0.04 _ 0.03
COBOC CLINK 72 _ 4.76 0.25 _ 0 0.04 _ 0.04
COBOC KKM 61.87 _ 3.69 0.28 _ 0.03 0.16 _ 0.06
COBOC KFKM 60.42 _ 1.73 0.29 _ 0.03 0.18 _ 0.06
COBOC SC 65.58 _ 8.48 0.36 _ 0.09 0.09 _ 0.08
Similarité K2 - Stratégie Max
COBOC SLINK 75.22 _ 0 0.25 _ 0 0.02 _ 0
COBOC ALINK 75.22 _ 0 0.25 _ 0 0.02 _ 0
COBOC CLINK 75.22 _ 0 0.25 _ 0 0.02 _ 0
COBOC KKM 61.49 _ 0.19 0.27 _ 0.02 0.16 _ 0.04
COBOC KFKM 61.3 _ 0 0.29 _ 0 0.2 _ 0
COBOC SC 61.3 _ 0 0.29 _ 0 0.2 _ 0
TABLEAU 4.14 — Évaluation externe de COBOC complémentaire sur parkinson selon différentes fusions
finales pour les noyaux K1 et K2.
4.7. ÉVALUATION 195
Étude de la fusion finale par approche multi-vues. Les approches heuristiques de COBOC
ont également été étudiées en prémisse à l’application d’une approche multi-vues : ici,
COFKM ou COKFKM. L’idée est de se servir des dernières représentations optimales du jeu
de donnée, apprises par l’application de COBOC, et de construire des données multi-vues pour
COFKM et COKFKM. Soit fX_(r)gr2[1::nr] l’ensemble des représentations optimales obtenues par
fA(r)gr2[1::nr] :
– COBOC consensus COFKM et COBOC complémentaire COFKM sont appliqués sur le jeu
de donnée multi-vues X représenté par fX_(r)gr2[1::nr] ;
– COBOC consensus COKFKM et COBOC complémentaire COKFKM sont appliqués sur le
jeu de donnée multi-vues X représenté par fK(r)gr2[1::nr] où K(r) est défini par :
K(r) =
1
Z
X_(r)X_(r)>
avec Z = max
(xi;xj )2X2
hxi; xji
Chaque K(r) est alors une matrice des produits scalaires normalisés entre individus.
L’approche COKFKM donne de meilleurs résultats que COFKM après application de COBOC.
Les performances ne parviennent sur Wine qu’à égaler celles de COFKM appliqué sur les données
classiques (Tab. 4.8). Concernant les jeux Iris et Parkinson, la stratégie Random permet
d’atteindre des solutions de meilleure qualité (Tab. 4.15) (pour la F-mesure concernant Parkinson,
Tab. (4.17))
Iris % F-mesure AvgEnt NMI
Stratégie Random
COBOC consensus COFKM 72.57 _ 4.2 0.25 _ 0.04 0.63 _ 0.05
COBOC consensus COKFKM 76.8 _ 6.73 0.26 _ 0.06 0.69 _ 0.07
COBOC complement COFKM 73.06 _ 1.51 0.28 _ 0.05 0.63 _ 0.02
COBOC complement COKFKM 74.35 _ 0.57 0.26 _ 0.03 0.66 _ 0.01
Stratégie Min
COBOC consensus COFKM 66.03 _ 8 0.39 _ 0.14 0.52 _ 0.12
COBOC consensus COKFKM 67.25 _ 8.87 0.35 _ 0.15 0.55 _ 0.13
COBOC complement COFKM 70.62 _ 3.39 0.24 _ 0.05 0.61 _ 0.05
COBOC complement COKFKM 71.51 _ 2.46 0.25 _ 0.05 0.62 _ 0.03
Stratégie Max
COBOC consensus COFKM 67.64 _ 0.84 0.27 _ 0.01 0.58 _ 0.01
COBOC consensus COKFKM 74.03 _ 2.15 0.25 _ 0.03 0.66 _ 0.02
COBOC complement COFKM 67.41 _ 0.45 0.27 _ 0.01 0.57 _ 0
COBOC complement COKFKM 73.04 _ 3.52 0.26 _ 0.05 0.65 _ 0.03
TABLEAU 4.15 — Évaluation externe de COBOC sur Iris selon différentes fusions finales multi-vues.
196 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
Wine % F-mesure AvgEnt NMI
Stratégie Random
COBOC consensus COFKM 83.55 _ 5.18 0.26 _ 0.05 0.74 _ 0.07
COBOC consensus COKFKM 82.91 _ 3.8 0.25 _ 0.04 0.74 _ 0.04
COBOC complement COFKM 84.72 _ 4.62 0.24 _ 0.05 0.75 _ 0.06
COBOC complement COKFKM 84.92 _ 2.16 0.21 _ 0.02 0.78 _ 0.02
Stratégie Min
COBOC consensus COFKM 76.63 _ 4.21 0.34 _ 0.04 0.63 _ 0.05
COBOC consensus COKFKM 85.84 _ 4.88 0.24 _ 0.09 0.76 _ 0.08
COBOC complement COFKM 86.8 _ 2.83 0.23 _ 0.04 0.78 _ 0.04
COBOC complement COKFKM 85.85 _ 2.78 0.22 _ 0.04 0.76 _ 0.04
Stratégie Max
COBOC consensus COFKM 75.16 _ 16.48 0.37 _ 0.25 0.61 _ 0.23
COBOC consensus COKFKM 93.19 _ 0 0.13 _ 0 0.88 _ 0
COBOC complement COFKM 79.84 _ 9.11 0.28 _ 0.09 0.67 _ 0.13
COBOC complement COKFKM 93.19 _ 0 0.13 _ 0 0.88 _ 0
TABLEAU 4.16 — Évaluation externe de COBOC sur Wine selon différentes fusions finales multi-vues.
parkinson % F-mesure AvgEnt NMI
Stratégie Random
COBOC consensus COFKM 56.96 _ 1.34 0.37 _ 0.06 0.03 _ 0.03
COBOC consensus COKFKM 68.85 _ 1.51 0.25 _ 0 0.07 _ 0.01
COBOC complement COFKM 57.09 _ 1.47 0.33 _ 0.03 0.04 _ 0.06
COBOC complement COKFKM 69.03 _ 0.87 0.25 _ 0 0.06 _ 0.01
Stratégie Min
COBOC consensus COFKM 60.19 _ 3.74 0.34 _ 0.03 0.11 _ 0.07
COBOC consensus COKFKM 63.43 _ 4.09 0.25 _ 0.01 0.12 _ 0.04
COBOC complement COFKM 60.88 _ 2.02 0.34 _ 0.02 0.11 _ 0.04
COBOC complement COKFKM 59.5 _ 0.8 0.25 _ 0.01 0.23 _ 0.03
Stratégie Max
COBOC consensus COFKM 56.14 _ 0.8 0.36 _ 0.01 0.01 _ 0.01
COBOC consensus COKFKM 61.85 _ 0.51 0.25 _ 0 0.12 _ 0
COBOC complement COFKM 55.59 _ 0.28 0.37 _ 0.04 0 _ 0
COBOC complement COKFKM 61.85 _ 0.51 0.25 _ 0 0.12 _ 0
TABLEAU 4.17—Évaluation externe de COBOC sur parkinson selon différentes fusions finales multi-vues.
4.7. ÉVALUATION 197
Évaluation externe de COBOC pour le clustering multi-vues
Les heuristiques COBOC consensus et COBOC complémentaire et les stratégies associées
(Random, Min et Max) ont également été observées sur les données mfeat. Le contexte est
celui du clustering multi-vues, où l’on cherche un clustering particulier réalisant un consensus en
exploitant les descriptions de données multi-vues, décrites par plusieurs groupes de variables.
Apport de la collaboration à chaque algorithme. Le tableau 4.18 montre les résultats obtenus
sur le jeu de donnée mfeat pour lesquels on applique les algorithmes localement sans
collaboration. L’objectif est d’observer les performances des différentes approches de recherche
de consensus par COBOC relativement à ces résultats.
% F-mesure AvgEnt NMI
mfeat : Algorithmes locaux différents
KM vue 0 59.37 _ 4.61 0.73 _ 0.1 0.68 _ 0.03
FKM vue 1 33.29 _ 1.07 1.76 _ 0.08 0.4 _ 0.02
SC vue 2 61.93 _ 0.85 0.69 _ 0.04 0.7 _ 0
SLINK vue 3 50.46 _ 0 1.05 _ 0 0.66 _ 0
ALINK vue 4 39.96 _ 0 1.24 _ 0 0.54 _ 0
CLINK vue 5 26.06 _ 0 1.87 _ 0 0.36 _ 0
mfeat : Algorithmes FKM locaux
FKM vue 0 63.31 _ 3.38 0.67 _ 0.03 0.7 _ 0.02
FKM vue 1 33.89 _ 0.4 1.72 _ 0.03 0.41 _ 0.01
FKM vue 2 21.94 _ 0.09 2.53 _ 0.02 0.14 _ 0
FKM vue 3 56.65 _ 2.83 0.8 _ 0.06 0.68 _ 0.01
FKM vue 4 72.59 _ 5.53 0.48 _ 0.06 0.77 _ 0.04
FKM vue 5 39.53 _ 0.19 1.32 _ 0.01 0.48 _ 0
TABLEAU 4.18 — Évaluation externe de COBOC consensus sur mfeat selon les résultats locaux.
Dans un premier temps est observé avant fusion l’impact dans chaque vue (ou pour chaque
algorithme) du processus de collaboration de COBOC (Tab. 4.19 à Tab. 4.22) par rapport aux
algorithmes appliqués sur chaque vue sans collaboration (Tab. 4.18). Comme dans le contexte
de la combinaison de modèle, on n’observe pas de tendance générale d’amélioration de tous les
algorithmes de clustering locaux. Cependant, on peut observer un rétrécissement de l’écart de
performance entre les différents algorithmes. En particulier, la qualité des algorithmes les plus
performants est souvent réduite au profit de l’amélioration des algorithmes les moins performants.
Par exemple, l’algorithme de clustering spectral SC de la vue 2 de qualité maximale dans
(Tab. 4.19) voit sa qualité réduite après application de COBOC avec la stratégie Random (selon
la F-mesure, de 61:93 à 59:59) là où l’algorithme CLINK de la vue 5 voit sa performance augmenter
(selon la F-mesure, de 26:06 à 42:52). Le même genre d’observation peut être fait sur les autres
tableaux de résultats (Tab. 4.20 à Tab. 4.22). En particulier, dans les deux derniers tableaux,
les algorithmes employés localement sont les mêmes, la différence entre les performances de
ceux-ci sont donc directement dérivées des différentes représentations de X. Les observations
décrites précédemment traduisent ici la recherche de collaboration entre les vues des données
pour atteindre un consensus, ce qui est l’objectif du clustering multi-vues.
198 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
mfeat % F-mesure AvgEnt NMI
Stratégie Random
COBOC vue 0 61.63 _ 4.38 0.71 _ 0.11 0.7 _ 0.03
COBOC vue 1 43.04 _ 1.5 1.37 _ 0.13 0.5 _ 0.02
COBOC vue 2 59.59 _ 2.65 0.69 _ 0.02 0.67 _ 0.02
COBOC vue 3 46.01 _ 3.28 1.22 _ 0.05 0.62 _ 0.04
COBOC vue 4 52.48 _ 4.09 0.87 _ 0.12 0.66 _ 0.04
COBOC vue 5 42.52 _ 1.55 1.23 _ 0.08 0.53 _ 0.02
Stratégie Min
COBOC vue 0 52.48 _ 3.26 0.92 _ 0.07 0.6 _ 0.03
COBOC vue 1 27.25 _ 1.24 2.12 _ 0.09 0.27 _ 0.02
COBOC vue 2 40.63 _ 3.58 1.27 _ 0.11 0.47 _ 0.03
COBOC vue 3 34.82 _ 4.92 1.61 _ 0.2 0.45 _ 0.07
COBOC vue 4 39.21 _ 1.68 1.31 _ 0.1 0.53 _ 0.02
COBOC vue 5 32.62 _ 3.84 1.58 _ 0.1 0.4 _ 0.04
Stratégie Max
COBOC vue 0 59.37 _ 4.61 0.73 _ 0.1 0.68 _ 0.03
COBOC vue 1 33.42 _ 0.85 1.73 _ 0.02 0.4 _ 0.01
COBOC vue 2 62.24 _ 0.05 0.67 _ 0 0.7 _ 0
COBOC vue 3 54.07 _ 0 0.97 _ 0 0.67 _ 0
COBOC vue 4 39.96 _ 0 1.24 _ 0 0.54 _ 0
COBOC vue 5 26.06 _ 0 1.87 _ 0 0.36 _ 0
TABLEAU 4.19 — Évaluation externe de COBOC consensus sur mfeat selon les résultats locaux. Chaque
clustering local est un consensus issu du processus de collaboration de COBOC entre plusieurs algorithmes
FKM.
mfeat % F-mesure AvgEnt NMI
Stratégie Random
COBOC vue 0 52.16 _ 5.83 0.94 _ 0.17 0.61 _ 0.05
COBOC vue 1 29.28 _ 1.72 2.01 _ 0.13 0.33 _ 0.03
COBOC vue 2 49.13 _ 4.21 1 _ 0.12 0.58 _ 0.04
COBOC vue 3 37.48 _ 5.2 1.46 _ 0.2 0.51 _ 0.08
COBOC vue 4 40.6 _ 4.54 1.25 _ 0.23 0.53 _ 0.05
COBOC vue 5 37.24 _ 2.84 1.35 _ 0.11 0.47 _ 0.03
Stratégie Min
COBOC vue 0 45.15 _ 2.91 1.13 _ 0.12 0.53 _ 0.03
COBOC vue 1 21.66 _ 2.47 2.41 _ 0.07 0.16 _ 0.05
COBOC vue 2 39.44 _ 1.49 1.32 _ 0.09 0.48 _ 0.02
COBOC vue 3 30.81 _ 5.44 1.8 _ 0.25 0.39 _ 0.08
COBOC vue 4 38.25 _ 6.79 1.32 _ 0.24 0.51 _ 0.06
COBOC vue 5 27.53 _ 3.09 1.73 _ 0.09 0.36 _ 0.03
Stratégie Max
COBOC vue 0 61.32 _ 2.35 0.69 _ 0.09 0.7 _ 0.02
COBOC vue 1 42.74 _ 1.18 1.37 _ 0.05 0.51 _ 0.01
COBOC vue 2 62.95 _ 1.36 0.66 _ 0.06 0.72 _ 0.01
COBOC vue 3 48.67 _ 3.61 1.07 _ 0.08 0.6 _ 0.04
COBOC vue 4 45.13 _ 3.45 0.97 _ 0.12 0.61 _ 0.03
COBOC vue 5 35.66 _ 4.16 1.49 _ 0.16 0.45 _ 0.03
TABLEAU 4.20 — Évaluation externe de COBOC complémentaire sur mfeat selon les résultats locaux.
Chaque clustering local est un consensus issu du processus de collaboration de COBOC entre plusieurs
algorithmes FKM.
4.7. ÉVALUATION 199
mfeat % F-mesure AvgEnt NMI
Stratégie Random
COBOC vue 0 67.8 _ 5.51 0.57 _ 0.07 0.74 _ 0.03
COBOC vue 1 42.96 _ 0.82 1.36 _ 0.08 0.5 _ 0.01
COBOC vue 2 53.03 _ 5.26 0.98 _ 0.2 0.61 _ 0.05
COBOC vue 3 51.56 _ 4.12 0.89 _ 0.11 0.64 _ 0.03
COBOC vue 4 64.2 _ 3.74 0.64 _ 0.04 0.7 _ 0.02
COBOC vue 5 50.3 _ 2.57 1.01 _ 0.08 0.57 _ 0.02
Stratégie Min
COBOC vue 0 57.21 _ 4.67 0.79 _ 0.09 0.63 _ 0.04
COBOC vue 1 29.24 _ 3.27 2.04 _ 0.15 0.31 _ 0.06
COBOC vue 2 26.55 _ 2.04 2.21 _ 0.16 0.26 _ 0.05
COBOC vue 3 49.49 _ 6.08 1.02 _ 0.21 0.59 _ 0.05
COBOC vue 4 39.99 _ 2.97 1.4 _ 0.1 0.46 _ 0.04
COBOC vue 5 38.64 _ 4.79 1.38 _ 0.19 0.46 _ 0.06
Stratégie Max
COBOC vue 0 63.31 _ 3.38 0.67 _ 0.03 0.7 _ 0.02
COBOC vue 1 33.89 _ 0.38 1.73 _ 0.03 0.41 _ 0.01
COBOC vue 2 21.84 _ 0.1 2.55 _ 0.04 0.14 _ 0.01
COBOC vue 3 56.65 _ 2.83 0.8 _ 0.06 0.68 _ 0.01
COBOC vue 4 72.46 _ 5.55 0.48 _ 0.06 0.77 _ 0.04
COBOC vue 5 39.53 _ 0.19 1.32 _ 0.01 0.48 _ 0
TABLEAU 4.21 — Évaluation externe de COBOC consensus sur mfeat selon les résultats locaux. Chaque
clustering local est un consensus issu du processus de collaboration de COBOC entre plusieurs algorithmes
différents.
mfeat % F-mesure AvgEnt NMI
Stratégie Random
COBOC vue 0 52.5 _ 3.22 0.98 _ 0.11 0.6 _ 0.03
COBOC vue 1 28.4 _ 1.92 2 _ 0.18 0.31 _ 0.04
COBOC vue 2 27.68 _ 1.78 2.13 _ 0.18 0.3 _ 0.04
COBOC vue 3 47.78 _ 5.06 1 _ 0.16 0.58 _ 0.05
COBOC vue 4 40.08 _ 6.27 1.38 _ 0.25 0.46 _ 0.06
COBOC vue 5 46.21 _ 4.58 1.15 _ 0.15 0.53 _ 0.04
Stratégie Min
COBOC vue 0 44.1 _ 4.04 1.19 _ 0.14 0.5 _ 0.04
COBOC vue 1 24.71 _ 0.56 2.28 _ 0.11 0.23 _ 0.02
COBOC vue 2 25.34 _ 2.58 2.25 _ 0.17 0.24 _ 0.05
COBOC vue 3 35.81 _ 6.86 1.39 _ 0.25 0.45 _ 0.08
COBOC vue 4 38.19 _ 0.96 1.45 _ 0.09 0.45 _ 0.01
COBOC vue 5 36.47 _ 2.51 1.47 _ 0.1 0.42 _ 0.03
Stratégie Max
COBOC vue 0 64.01 _ 0.41 0.63 _ 0.03 0.71 _ 0.01
COBOC vue 1 43.35 _ 0.84 1.4 _ 0.02 0.51 _ 0.01
COBOC vue 2 30.52 _ 3.24 1.84 _ 0.17 0.34 _ 0.06
COBOC vue 3 56.29 _ 3.6 0.76 _ 0.06 0.68 _ 0.03
COBOC vue 4 73.89 _ 6.39 0.45 _ 0.06 0.78 _ 0.04
COBOC vue 5 48 _ 1.8 1.07 _ 0.05 0.55 _ 0.02
TABLEAU 4.22 — Évaluation externe de COBOC complémentaire sur mfeat selon les résultats locaux.
Chaque clustering local est un consensus issu du processus de collaboration de COBOC entre plusieurs
algorithmes différents.
200 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
Apport de la fusion finale par le noyau K1 et K2. Le tableau 4.23 rappelle les résultats
obtenus sur mfeat par l’approche COFKM dans ses trois variantes (cf. section 2.4.2). Ces résultats
permettent d’observer l’apport éventuel de COBOC pour la recherche d’un clustering multi-vues.
% F-mesure AvgEnt NMI
Approche multi-vues COFKM
COFKM post 47.49 _ 5.3 0.94 _ 0.13 0.61 _ 0.04
COFKM 92.86 _ 0.18 0.16 _ 0 0.93 _ 0
COFKM concat 90.37 _ 3.7 0.19 _ 0.04 0.92 _ 0.02
TABLEAU 4.23 — Évaluation externe de COFKM sur mfeat.
Les tableaux 4.24 à 4.27 permettent de mesurer l’apport de la fusion finale par les noyaux
K1 et K2 permettant d’obtenir une solution au problème du clustering multi-vues posé par le
jeu de donnée mfeat. Dans tous les cas, il n’est pas possible d’atteindre, selon le paramétrage
des heuristiques et des stratégies, les performances obtenues par COFKM, même lorsque pour
COBOC, dans chaque vue est appliqué un FKM. En revanche, l’objectif d’atteindre une solution
consensus de meilleure qualité que les différents algorithmes de base employés est réalisé. On
peut l’observer en croisant par exemple les tableaux 4.24 ou 4.27 et le tableau 4.18. Les stratégies
Random et Max permettent une nette amélioration. En revanche, la stratégie Min ne
trouve pas de solution consensus satisfaisante.
4.7. ÉVALUATION 201
mfeat % F-mesure AvgEnt NMI
Similarité K1 - Stratégie Random
COBOC SLINK 48.2 _ 4.9 1.04 _ 0.18 0.63 _ 0.04
COBOC ALINK 63.21 _ 3.04 0.66 _ 0.08 0.75 _ 0.03
COBOC CLINK 46.73 _ 7.24 1 _ 0.22 0.64 _ 0.05
COBOC KKM 67.21 _ 5.8 0.56 _ 0.12 0.76 _ 0.03
COBOC KFKM 76.82 _ 4.55 0.42 _ 0.06 0.81 _ 0.03
COBOC SC 74.85 _ 3.15 0.42 _ 0.03 0.81 _ 0.01
Similarité K1 - Stratégie Min
COBOC SLINK 35.51 _ 5.02 1.54 _ 0.15 0.45 _ 0.05
COBOC ALINK 50.8 _ 2.19 0.94 _ 0.17 0.62 _ 0.03
COBOC CLINK 27.77 _ 3.09 1.66 _ 0.12 0.43 _ 0.05
COBOC KKM 56.81 _ 3.3 0.82 _ 0.18 0.65 _ 0.04
COBOC KFKM 67.68 _ 5.74 0.62 _ 0.11 0.72 _ 0.05
COBOC SC 66.28 _ 2.61 0.61 _ 0.06 0.72 _ 0.03
Similarité K1 - Stratégie Max
COBOC SLINK 43.32 _ 4.05 1.14 _ 0.15 0.59 _ 0.03
COBOC ALINK 62.23 _ 4.51 0.62 _ 0.04 0.73 _ 0.03
COBOC CLINK 33.58 _ 2.89 1.39 _ 0.12 0.54 _ 0.03
COBOC KKM 68.79 _ 3.22 0.52 _ 0.07 0.77 _ 0.03
COBOC KFKM 77.62 _ 2.39 0.38 _ 0.05 0.82 _ 0.02
COBOC SC 76.23 _ 3.18 0.38 _ 0.04 0.82 _ 0.02
Similarité K2 - Stratégie Random
COBOC SLINK 28.47 _ 11.56 1.83 _ 0.62 0.44 _ 0.13
COBOC ALINK 31.2 _ 14.48 1.45 _ 0.43 0.48 _ 0.13
COBOC CLINK 32.7 _ 14.85 1.41 _ 0.39 0.51 _ 0.12
COBOC KKM 71.87 _ 3.6 0.48 _ 0.07 0.8 _ 0.02
COBOC KFKM 55.62 _ 14.47 0.97 _ 0.38 0.64 _ 0.13
COBOC SC 79.22 _ 3.05 0.34 _ 0.02 0.84 _ 0.02
Similarité K2 - Stratégie Min
COBOC SLINK 29.56 _ 9.82 1.5 _ 0.31 0.45 _ 0.07
COBOC ALINK 30.51 _ 12.73 1.52 _ 0.31 0.46 _ 0.11
COBOC CLINK 30.77 _ 12.31 1.46 _ 0.3 0.48 _ 0.08
COBOC KKM 64.33 _ 6.1 0.6 _ 0.14 0.73 _ 0.05
COBOC KFKM 25.36 _ 3.07 2.06 _ 0.16 0.27 _ 0.04
COBOC SC 75.12 _ 2.09 0.45 _ 0.08 0.81 _ 0.02
Similarité K2 - Stratégie Max
COBOC SLINK 45.39 _ 16.49 1.04 _ 0.46 0.61 _ 0.13
COBOC ALINK 45.26 _ 17.89 1.09 _ 0.48 0.6 _ 0.16
COBOC CLINK 46.1 _ 17.84 0.99 _ 0.5 0.61 _ 0.14
COBOC KKM 74.5 _ 6.43 0.43 _ 0.14 0.83 _ 0.03
COBOC KFKM 32.21 _ 5.75 1.77 _ 0.28 0.38 _ 0.09
COBOC SC 77 _ 2.53 0.39 _ 0.07 0.84 _ 0.01
TABLEAU 4.24—Évaluation externe de COBOC consensus avec plusieurs algorithmes différents sur mfeat
selon différentes fusions finales pour les noyaux K1 et K2.
202 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
mfeat % F-mesure AvgEnt NMI
Similarité K1 - Stratégie Random
COBOC SLINK 39.38 _ 1.91 1.35 _ 0.14 0.52 _ 0.04
COBOC ALINK 54.66 _ 5.55 0.81 _ 0.12 0.66 _ 0.05
COBOC CLINK 32.89 _ 6.1 1.44 _ 0.26 0.5 _ 0.06
COBOC KKM 61.03 _ 7.15 0.64 _ 0.11 0.7 _ 0.05
COBOC KFKM 66.83 _ 6.22 0.6 _ 0.09 0.72 _ 0.05
COBOC SC 68.42 _ 2.7 0.56 _ 0.07 0.75 _ 0.02
Similarité K1 - Stratégie Min
COBOC SLINK 28.8 _ 3.98 1.82 _ 0.17 0.36 _ 0.06
COBOC ALINK 44.95 _ 6.02 1.1 _ 0.1 0.56 _ 0.06
COBOC CLINK 25 _ 4.03 1.79 _ 0.17 0.39 _ 0.05
COBOC KKM 51.43 _ 6.88 0.94 _ 0.16 0.6 _ 0.06
COBOC KFKM 52.35 _ 9.79 1.02 _ 0.31 0.6 _ 0.09
COBOC SC 58.43 _ 7.71 0.84 _ 0.2 0.65 _ 0.07
Similarité K1 - Stratégie Max
COBOC SLINK 53.03 _ 4.97 0.89 _ 0.17 0.65 _ 0.03
COBOC ALINK 63.46 _ 4.61 0.62 _ 0.12 0.75 _ 0.03
COBOC CLINK 46.01 _ 8.05 1.07 _ 0.28 0.63 _ 0.05
COBOC KKM 69.87 _ 2.32 0.48 _ 0.06 0.78 _ 0.01
COBOC KFKM 77.37 _ 3.86 0.38 _ 0.04 0.82 _ 0.02
COBOC SC 74.42 _ 3.06 0.4 _ 0.04 0.81 _ 0.02
Similarité K2 - Stratégie Random
COBOC SLINK 23.95 _ 1.75 1.83 _ 0.36 0.4 _ 0.05
COBOC ALINK 23.47 _ 0.44 1.68 _ 0.03 0.4 _ 0.01
COBOC CLINK 24.71 _ 0.25 1.6 _ 0.01 0.45 _ 0.01
COBOC KKM 63.68 _ 3.99 0.61 _ 0.03 0.74 _ 0.02
COBOC KFKM 27.16 _ 5.09 2 _ 0.2 0.3 _ 0.09
COBOC SC 77.75 _ 5.36 0.41 _ 0.08 0.83 _ 0.03
Similarité K2 - Stratégie Min
COBOC SLINK 26.24 _ 5.27 1.8 _ 0.41 0.41 _ 0.06
COBOC ALINK 30.04 _ 11.81 1.5 _ 0.26 0.47 _ 0.1
COBOC CLINK 29.36 _ 9.49 1.49 _ 0.23 0.47 _ 0.07
COBOC KKM 60.95 _ 7.1 0.69 _ 0.19 0.7 _ 0.06
COBOC KFKM 22.28 _ 1.93 2.18 _ 0.07 0.21 _ 0.03
COBOC SC 70.85 _ 4.14 0.49 _ 0.07 0.77 _ 0.03
Similarité K2 - Stratégie Max
COBOC SLINK 38.11 _ 16.93 1.47 _ 0.64 0.54 _ 0.17
COBOC ALINK 40.59 _ 19.76 1.24 _ 0.5 0.56 _ 0.17
COBOC CLINK 37.86 _ 15.56 1.23 _ 0.45 0.55 _ 0.12
COBOC KKM 71.86 _ 4.75 0.44 _ 0.1 0.8 _ 0.03
COBOC KFKM 36.15 _ 6.56 1.52 _ 0.28 0.44 _ 0.09
COBOC SC 79.09 _ 2.76 0.34 _ 0.08 0.84 _ 0.02
TABLEAU 4.25 — Évaluation externe de COBOC complémentaire avec plusieurs algorithmes différents
sur mfeat selon différentes fusions finales pour les noyaux K1 et K2.
4.7. ÉVALUATION 203
mfeat % F-mesure AvgEnt NMI
Similarité K1 - Stratégie Random
COBOC SLINK 52.69 _ 4.6 0.96 _ 0.2 0.65 _ 0.05
COBOC ALINK 64.36 _ 3.37 0.65 _ 0.04 0.74 _ 0.03
COBOC CLINK 35.02 _ 5.67 1.41 _ 0.16 0.55 _ 0.07
COBOC KKM 66.76 _ 7.95 0.61 _ 0.15 0.75 _ 0.05
COBOC KFKM 74.24 _ 5.95 0.46 _ 0.07 0.79 _ 0.03
COBOC SC 77.81 _ 4.23 0.38 _ 0.04 0.82 _ 0.02
Similarité K1 - Stratégie Min
COBOC SLINK 36.04 _ 3.7 1.5 _ 0.12 0.45 _ 0.04
COBOC ALINK 52.73 _ 5.03 0.93 _ 0.16 0.61 _ 0.05
COBOC CLINK 29.08 _ 5.58 1.62 _ 0.18 0.43 _ 0.05
COBOC KKM 57.37 _ 6.26 0.78 _ 0.11 0.65 _ 0.06
COBOC KFKM 64.66 _ 7 0.68 _ 0.12 0.69 _ 0.06
COBOC SC 63.9 _ 3.62 0.65 _ 0.07 0.7 _ 0.03
Similarité K1 - Stratégie Max
COBOC SLINK 42.15 _ 4.49 1.16 _ 0.15 0.59 _ 0.04
COBOC ALINK 69.89 _ 7.9 0.56 _ 0.16 0.77 _ 0.05
COBOC CLINK 40.97 _ 5.96 1.27 _ 0.18 0.59 _ 0.05
COBOC KKM 72.51 _ 5.37 0.49 _ 0.09 0.79 _ 0.03
COBOC KFKM 79.56 _ 2.42 0.39 _ 0.05 0.83 _ 0.01
COBOC SC 80.27 _ 3.3 0.35 _ 0.04 0.84 _ 0.02
Similarité K2 - Stratégie Random
COBOC SLINK 29.57 _ 13.84 2 _ 0.76 0.41 _ 0.16
COBOC ALINK 32.72 _ 16.9 1.46 _ 0.5 0.48 _ 0.15
COBOC CLINK 33.52 _ 17.03 1.4 _ 0.42 0.51 _ 0.13
COBOC KKM 68.45 _ 5.12 0.54 _ 0.06 0.78 _ 0.02
COBOC KFKM 43.48 _ 15.17 1.33 _ 0.43 0.5 _ 0.17
COBOC SC 81.81 _ 2.57 0.31 _ 0.02 0.86 _ 0.01
Similarité K2 - Stratégie Min
COBOC SLINK 42.22 _ 6.71 1.24 _ 0.23 0.56 _ 0.06
COBOC ALINK 58.03 _ 5.41 0.76 _ 0.16 0.69 _ 0.05
COBOC CLINK 55.94 _ 6.19 0.71 _ 0.13 0.66 _ 0.06
COBOC KKM 65.03 _ 7.86 0.63 _ 0.16 0.73 _ 0.07
COBOC KFKM 28.07 _ 4.04 2 _ 0.25 0.33 _ 0.08
COBOC SC 72.59 _ 3.49 0.48 _ 0.09 0.79 _ 0.03
Similarité K2 - Stratégie Max
COBOC SLINK 44.3 _ 15.27 1.08 _ 0.43 0.61 _ 0.12
COBOC ALINK 49.56 _ 20.64 1 _ 0.53 0.63 _ 0.17
COBOC CLINK 47.92 _ 19.89 0.99 _ 0.51 0.62 _ 0.15
COBOC KKM 68.08 _ 5.17 0.53 _ 0.05 0.78 _ 0.04
COBOC KFKM 30.9 _ 3.23 1.98 _ 0.15 0.38 _ 0.07
COBOC SC 76.6 _ 1.08 0.35 _ 0.02 0.84 _ 0.01
TABLEAU 4.26 — Évaluation externe de COBOC consensus avec plusieurs algorithmes FKM sur mfeat
selon différentes fusions finales pour les noyaux K1 et K2.
204 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
mfeat % F-mesure AvgEnt NMI
Similarité K1 - Stratégie Random
COBOC SLINK 32.3 _ 1.81 1.64 _ 0.21 0.43 _ 0.04
COBOC ALINK 52.82 _ 2.25 1 _ 0.08 0.62 _ 0.03
COBOC CLINK 30.89 _ 4.76 1.6 _ 0.16 0.45 _ 0.04
COBOC KKM 56 _ 4.34 0.82 _ 0.13 0.64 _ 0.04
COBOC KFKM 66.59 _ 4.44 0.65 _ 0.08 0.71 _ 0.04
COBOC SC 68.62 _ 5.46 0.57 _ 0.07 0.74 _ 0.04
Similarité K1 - Stratégie Min
COBOC SLINK 28.2 _ 1.93 1.82 _ 0.08 0.36 _ 0.02
COBOC ALINK 40.35 _ 5.66 1.33 _ 0.19 0.5 _ 0.06
COBOC CLINK 21.66 _ 0.89 2.03 _ 0.1 0.31 _ 0.02
COBOC KKM 47.89 _ 3.79 1.09 _ 0.12 0.55 _ 0.03
COBOC KFKM 50.02 _ 5.22 1.03 _ 0.15 0.56 _ 0.04
COBOC SC 53.39 _ 4.79 0.96 _ 0.12 0.61 _ 0.04
Similarité K1 - Stratégie Max
COBOC SLINK 49.97 _ 7.04 1.08 _ 0.2 0.65 _ 0.06
COBOC ALINK 70.6 _ 7.69 0.48 _ 0.11 0.78 _ 0.05
COBOC CLINK 36.78 _ 8.74 1.29 _ 0.29 0.58 _ 0.08
COBOC KKM 73.82 _ 6.41 0.48 _ 0.12 0.8 _ 0.03
COBOC KFKM 80.49 _ 4.37 0.36 _ 0.05 0.83 _ 0.03
COBOC SC 76.16 _ 4.38 0.43 _ 0.08 0.82 _ 0.03
Similarité K2 - Stratégie Random
COBOC SLINK 29.72 _ 9.4 1.48 _ 0.29 0.47 _ 0.06
COBOC ALINK 30.22 _ 13.2 1.5 _ 0.42 0.45 _ 0.11
COBOC CLINK 29.68 _ 10.07 1.47 _ 0.27 0.48 _ 0.07
COBOC KKM 63.55 _ 1.69 0.7 _ 0.06 0.72 _ 0.01
COBOC KFKM 36.3 _ 2.82 1.68 _ 0.16 0.43 _ 0.03
COBOC SC 76.05 _ 3.98 0.44 _ 0.11 0.82 _ 0.02
Similarité K2 - Stratégie Min
COBOC SLINK 33.24 _ 8.51 1.64 _ 0.46 0.47 _ 0.09
COBOC ALINK 42.82 _ 15.91 1.14 _ 0.45 0.56 _ 0.14
COBOC CLINK 41.77 _ 14.23 1.18 _ 0.37 0.55 _ 0.11
COBOC KKM 61.78 _ 4.1 0.73 _ 0.06 0.69 _ 0.02
COBOC KFKM 26.07 _ 4.33 2.09 _ 0.19 0.29 _ 0.07
COBOC SC 65.5 _ 4.09 0.64 _ 0.12 0.73 _ 0.03
Similarité K2 - Stratégie Max
COBOC SLINK 25.69 _ 0.33 1.61 _ 0.01 0.45 _ 0.01
COBOC ALINK 24.24 _ 0.26 1.67 _ 0.01 0.41 _ 0.01
COBOC CLINK 25.19 _ 0.47 1.6 _ 0.01 0.45 _ 0.01
COBOC KKM 71.85 _ 4.6 0.47 _ 0.09 0.8 _ 0.03
COBOC KFKM 36.4 _ 5.35 1.6 _ 0.22 0.45 _ 0.09
COBOC SC 77.84 _ 4.38 0.34 _ 0.05 0.83 _ 0.02
TABLEAU 4.27 — Évaluation externe de COBOC complémentaire avec plusieurs algorithmes FKM sur
mfeat selon différentes fusions finales pour les noyaux K1 et K2.
4.8. DISCUSSION 205
Étude de la fusion finale par approche multi-vues. Une dernière étude intéressante est d’observer
l’apport de la recherche de solutions locales consensus par COBOC pour le clustering
multi-vues, notamment pour l’utilisation de COFKM. COBOC est utilisé ici pour l’apprentissage
de représentations optimales locales, dont on espère qu’elles seront de suffisamment bonne qualité
pour une recherche de consensus par COFKM. Pour rappel, soit fX_(r)gr2[1::nr] l’ensemble
des représentations optimales obtenues par fA(r)gr2[1::nr] :
– COBOC consensus COFKM et COBOC complémentaire COFKM sont appliqués sur le jeu
de donnée multi-vues X représenté par fX_(r)gr2[1::nr] ;
– COBOC consensus COKFKM et COBOC complémentaire COKFKM sont appliqués sur le
jeu de donnée multi-vues X représenté par fK(r)gr2[1::nr] où K(r) est défini par :
K(r) =
1
Z
X_(r)X_(r)>
avec Z = max
(xi;xj )2X2
hxi; xji
Les meilleures performances de COBOC sont atteintes par l’adjonction de COKFKM comme
procédure de fusion finale, et avec les noyaux fK(r)gr2[1::nr]. Le résultat fort ici est l’amélioration
de COFKM (tableau 4.29), déjà très performant sur mfeat, par COKFKM à partir des noyaux
issus de l’application de COBOC complémentaire avec la stratégie Max.
% F-mesure AvgEnt NMI
Stratégie Random
COBOC consensus COFKM 52.41 _ 9.22 1.04 _ 0.3 0.62 _ 0.1
COBOC consensus COKFKM 84.72 _ 7.45 0.28 _ 0.09 0.87 _ 0.05
COBOC complement COFKM 48.74 _ 5.28 1.08 _ 0.13 0.58 _ 0.05
COBOC complement COKFKM 55.64 _ 8.36 0.85 _ 0.21 0.65 _ 0.08
Stratégie Min
COBOC consensus COFKM 41.09 _ 6.65 1.34 _ 0.31 0.5 _ 0.1
COBOC consensus COKFKM 50.11 _ 6.49 1.04 _ 0.18 0.59 _ 0.06
COBOC complement COFKM 41.78 _ 7.21 1.41 _ 0.32 0.48 _ 0.1
COBOC complement COKFKM 35.61 _ 2.03 1.63 _ 0.09 0.43 _ 0.03
Stratégie Max
COBOC consensus COFKM 41.34 _ 3.73 1.44 _ 0.19 0.53 _ 0.05
COBOC consensus COKFKM 91.4 _ 0.14 0.19 _ 0 0.92 _ 0
COBOC complement COFKM 48.66 _ 2.6 1.16 _ 0.15 0.6 _ 0.03
COBOC complement COKFKM 87.31 _ 3.55 0.23 _ 0.03 0.89 _ 0.02
TABLEAU 4.28 — Évaluation externe de COBOC avec plusieurs algorithmes différents sur mfeat selon
différentes fusions finales multi-vues.
4.8 Discussion
La plateforme de clustering collaboratif proposée se décline en deux variantes heuristiques
selon l’objectif de recherche d’un ou plusieurs clusterings consensus ou de plusieurs clusterings
alternatifs. Celles-ci peuvent être appliquées dans différents contextes comme :
– la combinaison de modèles, où plusieurs algorithmes de clustering peuvent être employés
pour fouiller un jeu de donnée classique mono-vue ;
– le multi-vues, où un ou plusieurs algorithmes peuvent être employés pour fouiller les
parties communes ou différentes parmi des données multi-représentées.
206 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
% F-mesure AvgEnt NMI
Stratégie Random
COBOC consensus COFKM 50.73 _ 12.13 1.09 _ 0.37 0.6 _ 0.13
COBOC consensus COKFKM 83.93 _ 5.22 0.29 _ 0.07 0.87 _ 0.03
COBOC complement COFKM 48.63 _ 4.84 1.11 _ 0.15 0.58 _ 0.06
COBOC complement COKFKM 49.21 _ 7.66 1.06 _ 0.16 0.59 _ 0.07
Stratégie Min
COBOC consensus COFKM 40.68 _ 9.79 1.42 _ 0.37 0.48 _ 0.11
COBOC consensus COKFKM 48.34 _ 10.72 1.2 _ 0.34 0.59 _ 0.09
COBOC complement COFKM 37.18 _ 5.59 1.55 _ 0.22 0.43 _ 0.08
COBOC complement COKFKM 32.49 _ 1.83 1.79 _ 0.07 0.4 _ 0.03
Stratégie Max
COBOC consensus COFKM 39.71 _ 2.79 1.45 _ 0.16 0.52 _ 0.04
COBOC consensus COKFKM 91.47 _ 0 0.19 _ 0 0.92 _ 0
COBOC complement COFKM 37.26 _ 4.46 1.58 _ 0.32 0.47 _ 0.07
COBOC complement COKFKM 93.26 _ 0.55 0.15 _ 0.01 0.93 _ 0.01
TABLEAU 4.29 — Évaluation externe de COBOC avec plusieurs algorithmes FKM sur mfeat selon différentes
fusions finales multi-vues.
La collaboration proposée pour atteindre l’accord (consensus) ou le désaccord (alternatives)
entre les différents algorithmes employés est basé sur un mécanisme d’échange de contraintes
permettant localement de trouver simultanément un clustering atteignant l’objectif et un sousespace
de représentation des données menant à ces clusterings. Cette dernière facette n’est pas
présente dans les différentes approches étudiées dans l’état de l’art, et permet des analyses d’un
autre ordre. Par exemple, une question à laquelle la contribution proposée peut répondre est la
suivante :
quelles sont localement les sous-espaces de représentation qui permettent d’atteindre un consensus
quelquesoient les algorithmes de clustering locaux employés ?
La résolution de cette question peut permettre, pour des données multi-vues, d’identifier
les attributs créant du bruit pour l’obtention d’un clustering cible. Ceux-ci sont alors de faibles
contributeurs à la définition du sous-espace permettant par exemple d’atteindre des solutions de
clutering proches.
L’approche a été évaluée empiriquement afin d’observer son comportement de manière interne,
et de manière externe. Ces expériences ont permis de dégager des liens comme par
exemple, l’importance de chercher une solution consensus entre les algorithmes locaux lorsque
ceux-ci proposent des solutions de clustering de base très diverses.
L’approche proposée a néanmoins le défaut d’être assez fortement paramétrée, notamment
par le volume de contraintes échangées et le nombre d’échanges envisagé. Nous avons observé
notamment que les solutions les plus intéressantes étaient obtenues lors des quelques premiers
échanges. Une observation intéressante serait de conserver l’historique des solutions trouvées
à chaque étape de génération des contraintes afin d’observer, par exemple dans le cas de la
recherche de consensus, si la solution maximisant l’information mutuelle normalisée durant
une exécution de l’algorithme permet d’atteindre une solution vraiment meilleure au sens de
l’évaluation externe. La variante ALTERBOC, elle, manque de procédure d’évaluation externe,
mais ceci est normal par essence. En effet si un clustering de bonne qualité peut être obtenu
sur des données, au sens de cette évaluation externe, alors une alternative sera de mauvaise
4.9. CONCLUSION 207
qualité au sens de l’évaluation choisie et sera donc peu valorisable. En revanche, les techniques
de recherche d’alternatives trouvent tout à fait leur place lors de la confrontation à de réelles
données dont on ne connait pas du tout la classification de départ, ou bien lorsque celle-ci est
connu de l’analyste qui préfère alors découvrir quelque chose de différent.
4.9 Conclusion
Ce chapitre a permis d’introduire la plateforme collaborative proposée, dont COBOC et ALTERBOC
sont des instances particulières. Il reprend de façon synthétique des développements
réalisés dans le cadre du clustering d’ensemble qui mène au clustering collaboratif pour la recherche
de consensus. Des développement récents, et des interrogations sur la diversification
des problèmes autour du clustering [Kriegel and Zimek, 2010] ont guidé la recherche bibliographique
autour notamment du clustering alternatif, et laisse entrevoir les liens entre toutes
les problématiques, avec en suspens l’éventualité de voir des approches susceptibles de les unifier
et de proposer un mécanisme de résolution adéquat. La plateforme proposée tend vers cet
objectif de pouvoir gérer simultanément la recherche d’un ou plusieurs clusterings, consensus
ou alternatifs, à travers un même mécanisme de collaborations entre plusieurs classifieurs non
supervisés.
Les études expérimentales proposées suggèrent de nombreuses applications, mais celles-ci
n’ont pu être réalisées afin de valoriser davantage les approches. La plateforme présentée est
bien entendue extensible, et d’autres heuristiques peuvent être proposées pour atteindre les
différents objectifs fixés. En particulier, en perspective de l’approche proposée, une amélioration
serait, plutôt que de fixer la stratégie de génération des contraintes pour chaque algorithme de
clustering local, de trouver un moyen de déterminer automatiquement quelles contraintes serait
les plus judicieuses pour chacun.
Conclusion et perspectives
Conclusion
Ce travail de thèse a proposé une vision restreinte mais constructive, de l’évolution de la
problématique classique du clustering, dans un premier temps vers l’adaptation à des problématiques
applicatives de multiplicité de données, puis dans un second temps vers les problématiques
de multiplicité des analyses et leur combinaison.
La première problématique abordée est la classification non supervisée multi-vues. Nous
avons proposé pour résoudre ce problème, une approche centralisée collaborative et floue, ainsi
qu’une extension à noyaux, permettant de traiter des données décrites simultanément par des représentations
vectorielles et relationnelles. L’élaboration de cette contribution est permise grâce
aux travaux de [Pedrycz, 2002] (COFC) et [Bickel and Scheffer, 2005] (COEM). Partant de l’approche
multi-vues non convergente COEM, nous avons proposé, sur la base d’une extension des
K-moyennes floues ([Bezdek, 1981]) à la manière de COFC, un critère simple et intuitif menant
à un algorithme également simple, intuitif, et convergent. L’utilisation éventuelle de noyaux
permet d’adapter l’algorithme pour des questions de complexité algorithmique. De plus, l’approche
proposée généralise complètement diverses solutions de fusion naïves, basées sur FKM :
la concaténation ou fusion a priori, où FKM est directement appliqué à la représentation jointe
des différentes vues, et la fusion a posteriori, lorsque FKM est appliqué indépendamment sur
chaque vue.
Le développement des approches centralisées dédiées aux données multi-vues reposent sur
le paradigme de la recherche de clusterings adaptés dans chaque vue, mais liés entre eux par la
réduction d’un critère de désaccord. Ce paradigme implique la construction de différents clusterings
locaux devant tendre ensemble vers une solution consensus. La contribution proposée
relevant d’une approche de clustering connue et paramétrée, les clusterings locaux peuvent alors
être construits explicitement pour répondre au critère objectif posé, celui-ci étant simple. Cet aspect
peut être considéré comme une première approche faisant intervenir la multiplicité des
traitements, dans la mesure où les clusterings locaux optimaux minimisant le désaccord constituent
un ensemble de clusterings consensus, émanant tous de la collaboration entre les vues.
L’évolution naturelle envisagée pour nos contributions a alors été de proposer un modèle permettant
de s’abstraire des algorithmes utilisés dans chaque vue ainsi que de leurs paramètres.
L’instanciation d’un tel modèle peut alors permettre d’adapter le traitement réalisé dans chaque
vue après connaissance de caractéristiques particulières sur ces vues (e.g. les types des descripteurs).
Ce constat a donné lieu aux dernières approches proposées, se fondant complètement
sur des principes tirés du clustering semi-supervisé, problématique qui a été étudié également
dans cette thèse.
Le second apport proposé concerne alors l’intégration de connaissances externes en classification
non supervisée. Dans ce contexte, la contribution est double puisque nous proposons
une approche fondée sur le boosting dans un contexte non supervisé : BOC, et une approche
fondée sur un algorithme d’optimisation numérique adapté : UZABOC. En particulier,
210 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
nous montrons comment une variante de la seconde approche (ADAUZABOC) peut s’interpréter
en terme de boosting. Ces contributions suivent directement les travaux de [Liu et al., 2007]
(BOOSTCLUSTER) fonctionnant par génération successive de sous-espaces de représentation des
données dans lequel un algorithme quelconque de clustering permettrait de mieux regrouper les
individus, et en particulier, les individus pour lesquels des connaissances externes sont disponibles.
Nous proposons pour chaque contribution un formalisme adapté basé sur deux principes
que sont la cohérence vis à vis de la représentation d’origine, et la consistance vis à vis des
connaissances externes. Nous montrons en particulier que l’approche BOOSTCLUSTER optimise
un critère proche du critère de consistance proposé dans le cadre de la contribution BOC. La
seconde contribution UZABOC et sa variante ADAUZABOC permettent d’apprendre simultanément
un clustering respectant au mieux les connaissances externes, et la fonction de distance
permettant d’obtenir ce clustering. En particulier cette fonction de distance est obtenue comme
l’optimum d’un problème d’optimisation sous contraintes. Dans les cas où la convergence n’est
pas atteinte, la sous-optimalité du sous espace de projection optimal définissant la fonction de
distance peut être quantifiée.
Les contributions proposées sont suffisamment génériques pour pouvoir améliorer différents
algorithmes de clustering étant données les connaissances externes. En particulier, elles n’utilisent
aucune propriété caractérisant de tels algorithmes. La variante ADAUZABOC est alors opérationnelle
pour pouvoir être étendu à un contexte de multiplicité des données à travers une
plateforme collaborative fondée sur l’échange de contraintes entre vues, prises dans chacune
comme des connaissances externes.
Le troisième apport proposé a permis de fonder les bases de la collaboration entre algorithmes
de clustering quelconques pour atteindre l’objectif de consensus, ou minimisation du
désaccord comme suggéré dans le cadre multi-vues. Nous montrons de plus que la collaboration
peut être envisagée pour atteindre l’objectif, au contraire, de divergence entre les vues,
comme suggéré par les approches dédiées au problème du clustering alternatif. En ce sens la plateforme
permet, modulo le mécanisme de collaboration, de proposer des solutions au problème
du clustering multi-vues, rejoignant dans ce contexte le clustering d’ensemble et le clustering collaboratif,
et en même temps au problème du clustering alternatif. Les contributions proposées :
COBOC et ALTERBOC, se fondant sur ADAUZABOC, permettent alors simultanément d’apprendre
un ensemble de fonctions de distances (une par vue ou alternative) et au choix, un ensemble
de clusterings consensus ou de clusterings alternatifs. L’approche nécessite cependant plusieurs
paramètres pour espérer atteindre ces objectifs, qu’elle atteint alors de manière heuristique et
peu contrôlée. Pour finir elle vise à constituer une contribution de base à l’édifice de la recherche
d’une approche unifiée au clustering et ses problèmes satellites, préoccupation très actuelle dans
la communauté de la fouille de données (figure 4.11).
Perspectives
Les perspectives de ce travail de thèse concernent essentiellement la dernière approche proposée
: la plateforme collaborative déclinée en COBOC et ALTERBOC. Parmi les points qui ont été
abordés en conclusion de ces approches, certains peuvent se retrouver dans les approches suggérées
dans la figure 4.11. En particulier, on s’intéresse à la possibilité d’apprendre directement
les contraintes pour tendre vers un objectif de consensus, ou d’obtention d’alternatives, et non
de devoir fixer à l’avance la stratégie de génération de ces contraintes. Une autre perspective,
beaucoup plus à court terme, est la valorisation expérimentale de l’approche, où la nécessité de
l’appliquer sur différents jeux de données notamment multi-représentées.
Concernant les approches BOC, UZABOC et ADAUZABOC, la première perspective envisageable
est de changer l’objectif de cohérence. Celui-ci est fondé sur l’ACP, or de nombreuses
4.9. CONCLUSION 211
FIGURE 4.11 — L’unification des problèmes du clustering. L’objectif actuel est de proposer une approche
intégrant un moyen de réaliser simultanément du clustering dans des sous-espaces (par exemple par
ACP), du clustering semi-supervisé, du clustering multi-vues et alternatif.
autres techniques de recherche de sous-espaces ou variétés sur lesquels sont distribuées les données
existent, et il serait important de tester l’impact de leur utilisation en lieu et place du critère
de cohérence choisi. Ce changement aura également une influence sur les développements de
COBOC et ALTERBOC, et ils peuvent aller à l’encontre des observations faites. D’un point de vue
plus technique, la convergence des approches UZABOC et ADAUZABOC n’est pour l’heure qu’observée,
et celle-ci n’est pas atteinte dans tous les cas. On peut alors s’interroger naturellement
sur l’identification de propriétés sur les données, jointes aux contraintes, permettant de garantir
une convergence vers la solution optimale. Notons toutefois que même si l’algorithme d’Uzawa
utilisé dans ces approches n’atteint pas d’optimal au sens de la dualité forte, il permet d’obtenir
une solution approchée, la meilleure possible et caractérisable par une notion de sous-optimalité
qui est quantifiable.
En ce qui concerne l’approche originelle COFKM, à partir de laquelle se sont fondés tous
les développements ultérieurs, un problème solvable dans le modèle COFKM, est celui de la
correspondance entre les groupes. Tel que le modèle est proposé, la correspondance est posée
dès l’initialisation des centres dans chaque vue (les mêmes individus sont tirés comme centre
initiaux). Le critère de désaccord peut être modifié de sorte à identifier pour un groupe donné,
la valeur de son indice dans chaque vue. Toujours pour l’approche COFKM, il peut être intéressant
d’observer la production de clusterings alternatifs en changeant le signe de la pénalisation
du critère. En effet, comme il a été présenté dans cette thèse, il existe un lien étroit entre la
recherche de plusieurs clusterings alternatifs à déterminer à partir de données mono-vue, et la
212 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE
recherche d’un clustering consensus à partir de données multi-vues. Cette analogie est concrète
dans les approches présentées basées sur le modèle de mélange : COEM et CAMI. L’un pénalise
la somme des critères de log-vraisemblance classiques par une divergence de Kullback-Leibler
(KL) entre les clusterings locaux, l’autre par l’information mutuelle (MI) entre ceux-ci. Or la
dualité entre les mesures KL etMI entre deux clusterings est admise, dans le sens où maximiser
l’une des quantités revient à minimiser l’autre. La proposition d’une variante de COFKM pour la
recherche d’alternatives se justifie alors pleinement.
Liste des tableaux
2.1 Évaluation externe de COFKM sur mfeat comparé aux approches mono-vues. . . . . 81
2.2 Évaluation externe de COFKM sur 2D2K comparé aux approches mono-vues. . . . . 82
2.3 Évaluation externe de COFKM sur mfeat comparé aux approches centralisées multivues.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
2.4 Évaluation externe de COFKM sur 2D2K comparé aux approches centralisées multivues.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
2.5 Évaluation externe de COFKM sur mfeat comparé aux différentes solutions de fusion. 84
2.6 Évaluation externe de COFKM sur 2D2K comparé aux différentes solutions de fusion. 84
3.1 Données pour le clustering semi-supervisé . . . . . . . . . . . . . . . . . . . . . . . . 123
4.1 Évaluation externe de COBOC consensus sur Iris selon les résultats locaux. . . . . . . 183
4.2 Évaluation externe de COBOC consensus sur Iris selon les résultats locaux. . . . . . . 184
4.3 Évaluation externe de COBOC complémentaire sur Iris selon les résultats locaux. . . 185
4.4 Évaluation externe de COBOC consensus sur Wine selon les résultats locaux. . . . . . 185
4.5 Évaluation externe de COBOC complémentaire sur Wine selon les résultats locaux. . 186
4.6 Évaluation externe de COBOC consensus sur parkinson selon les résultats locaux. . . 186
4.7 Évaluation externe de COBOC complémentaire sur parkinson selon les résultats locaux.187
4.8 Évaluation externe de COFKM dans le contexte de la combinaison de modèles. . . . 187
4.9 Évaluation externe de COBOC consensus sur Iris selon différentes fusions finales pour
les noyaux K1 et K2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
4.10 Évaluation externe de COBOC complémentaire sur Iris selon différentes fusions finales
pour les noyaux K1 et K2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
4.11 Évaluation externe de COBOC consensus sur Wine selon différentes fusions finales
pour les noyaux K1 et K2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
4.12 Évaluation externe de COBOC complémentaire sur Wine selon différentes fusions
finales pour les noyaux K1 et K2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
4.13 Évaluation externe de COBOC consensus sur parkinson selon différentes fusions finales
pour les noyaux K1 et K2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
4.14 Évaluation externe de COBOC complémentaire sur parkinson selon différentes fusions
finales pour les noyaux K1 et K2. . . . . . . . . . . . . . . . . . . . . . . . . . . 194
4.15 Évaluation externe de COBOC sur Iris selon différentes fusions finales multi-vues. . . 195
4.16 Évaluation externe de COBOC sur Wine selon différentes fusions finales multi-vues. . 196
4.17 Évaluation externe de COBOC sur parkinson selon différentes fusions finales multi-vues.196
4.18 Évaluation externe de COBOC consensus sur mfeat selon les résultats locaux. . . . . . 197
4.19 Évaluation externe de COBOC consensus sur mfeat selon les résultats locaux obtenus
par l’application de plusieurs FKM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
4.20 Évaluation externe de COBOC complémentaire sur mfeat selon les résultats locaux
obtenus par l’application de plusieurs FKM. . . . . . . . . . . . . . . . . . . . . . . . 198
4.21 Évaluation externe de COBOC consensus sur mfeat selon les résultats locaux obtenus
par l’application d’algorithmes différents. . . . . . . . . . . . . . . . . . . . . . . . . 199
214 LISTE DES TABLEAUX
4.22 Évaluation externe de COBOC complémentaire sur mfeat selon les résultats locaux
obtenus par l’application d’algorithmes différents. . . . . . . . . . . . . . . . . . . . . 199
4.23 Évaluation externe de COFKM sur mfeat. . . . . . . . . . . . . . . . . . . . . . . . . . 200
4.24 Évaluation externe de COBOC consensus avec plusieurs algorithmes différents sur
mfeat selon différentes fusions finales pour les noyaux K1 et K2. . . . . . . . . . . . 201
4.25 Évaluation externe de COBOC complémentaire avec plusieurs algorithmes différents
sur mfeat selon différentes fusions finales pour les noyaux K1 et K2. . . . . . . . . . 202
4.26 Évaluation externe de COBOC consensus avec plusieurs algorithmes FKM sur mfeat
selon différentes fusions finales pour les noyaux K1 et K2. . . . . . . . . . . . . . . . 203
4.27 Évaluation externe de COBOC complémentaire avec plusieurs algorithmes FKM sur
mfeat selon différentes fusions finales pour les noyaux K1 et K2. . . . . . . . . . . . 204
4.28 Évaluation externe de COBOC avec plusieurs algorithmes différents sur mfeat selon
différentes fusions finales multi-vues. . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
4.29 Évaluation externe de COBOC avec plusieurs algorithmes FKM sur mfeat selon différentes
fusions finales multi-vues. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
Table des figures
0.1 Données désordonnées avant clustering et ordonnées après clustering. . . . . . . . . . 9
0.2 Analyse exploratoire des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
0.3 Différents types de données multi-vues. . . . . . . . . . . . . . . . . . . . . . . . . . 16
0.4 Problématiques concernant la multiplicité des données et la multiplicité des analyses. 19
1.1 Dendrogramme d’un clustering hiérarchique . . . . . . . . . . . . . . . . . . . . . . . 29
1.2 Résultats d’algorithme agglomératif hiérarchique . . . . . . . . . . . . . . . . . . . . 29
1.3 Déroulement de KM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.4 Déroulement de DBSCAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.1 Les différentes fusions du clustering multi-vues. . . . . . . . . . . . . . . . . . . . . . 52
2.2 Un modèle COMRAF et sa décompostion en plusieurs COMRAF*. . . . . . . . . . . . 63
2.3 Évaluation interne de COFKM sur 2D2K. . . . . . . . . . . . . . . . . . . . . . . . . . 80
2.4 Évaluation interne de COFKM sur mfeat. . . . . . . . . . . . . . . . . . . . . . . . . . 80
2.5 Influence des paramètres _ et _ sur COFKM. . . . . . . . . . . . . . . . . . . . . . . . 84
2.6 Évaluation externe de COFKM selon le paramètre _. . . . . . . . . . . . . . . . . . . 85
2.7 Évolution du critère COFKM sur mfeat . . . . . . . . . . . . . . . . . . . . . . . . . . 85
2.8 Évaluation externe de COKFKM sur WebKB. . . . . . . . . . . . . . . . . . . . . . . . 86
3.1 Intégration de contraintes dans le clustering semi-supervisé. . . . . . . . . . . . . . . 92
3.2 Réseau de Markov pour le clustering semi-supervisé. . . . . . . . . . . . . . . . . . . 97
3.3 Méta-algorithmes pour le clustering semi-supervisé. . . . . . . . . . . . . . . . . . . . 108
3.4 Schéma du déroulement d’UZABOC. . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
3.5 Schéma du déroulement d’ADAUZABOC. . . . . . . . . . . . . . . . . . . . . . . . . . 122
3.6 Illustration des méthodes de recherche UZABOC et ADAUZABOC. . . . . . . . . . . . 124
3.7 Légende de l’évaluation interne des approches semi-supervisées. . . . . . . . . . . . . 126
3.8 Légende de l’évaluation externe des approches semi-supervisées. . . . . . . . . . . . 126
3.9 Convergence de BOC avec KM sur Iris centré et réduit. . . . . . . . . . . . . . . . . . 128
3.10 Convergence de UZABOC avec KM sur Iris centré et réduit. . . . . . . . . . . . . . . . 129
3.11 Convergence de ADAUZABOC avec KM sur Iris centré et réduit. . . . . . . . . . . . . 130
3.12 Convergence de BOC avec CLINK sur Iris centré et réduit. . . . . . . . . . . . . . . . 131
3.13 Convergence de UZABOC avec CLINK sur Iris centré et réduit. . . . . . . . . . . . . . 132
3.14 Convergence de ADAUZABOC avec CLINK sur Iris centré et réduit. . . . . . . . . . . . 133
3.15 Comparatifs des approches semi-supervisées sur Iris centré et réduit. . . . . . . . . . 135
3.16 Comparatifs des approches semi-supervisées sur Parkinson centré et réduit. . . . . . . 135
3.17 Comparatifs des approches semi-supervisées sur Wine centré et réduit. . . . . . . . . 136
3.18 Comparatifs des approches semi-supervisées sur WDBC centré et réduit. . . . . . . . 136
3.19 Comparatifs des approches semi-supervisées sur Iris centré et réduit avec contraintes
bruitées. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
3.20 Comparatifs des approches semi-supervisées sur Parkinson centré et réduit avec contraintes
bruitées. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
TABLE DES FIGURES 217
3.21 Comparatifs des approches semi-supervisées surWine centré et réduit avec contraintes
bruitées. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
3.22 Comparatifs des approches semi-supervisées sur WDBC centré et réduit avec contraintes
bruitées. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
3.23 Comparatifs des approches semi-supervisées sur Iris centré. . . . . . . . . . . . . . . 140
3.24 Comparatifs des approches semi-supervisées sur Parkinson centré. . . . . . . . . . . . 141
3.25 Comparatifs des approches semi-supervisées sur wine centré. . . . . . . . . . . . . . . 141
3.26 Comparatifs des approches semi-supervisées sur WDBC centré. . . . . . . . . . . . . . 142
4.1 clustering d’ensemble, clustering collaboratif et alternative clustering. . . . . . . . . . 148
4.2 Légende pour l’évaluation interne de COBOC et ALTERBOC. . . . . . . . . . . . . . . 174
4.3 Évolution de l’AvgNMI pour la combinaison de modèle et l’heuristique consensus. . 175
4.4 Évolution de l’AvgNMI pour la combinaison de modèle et l’heuristique complémentaire.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
4.5 Évolution de l’AvgNMI pour le clustering multi-vues et l’heuristique consensus. . . . 177
4.6 Évolution de l’AvgNMI pour le clustering multi-vues et l’heuristique complémentaire. 178
4.7 Évolution de l’AvgNMI pour la combinaison de modèle et l’heuristique global. . . . 180
4.8 Évolution de l’AvgNMI pour la combinaison de modèle et l’heuristique complémentaire.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
4.9 Évolution de l’AvgNMI pour le clustering multi-vues et l’heuristique global. . . . . . 182
4.10 Évolution de l’AvgNMI pour le clustering multi-vues et l’heuristique complémentaire. 182
4.11 L’unification des problèmes du clustering. . . . . . . . . . . . . . . . . . . . . . . . . 211
Liste des algorithmes
1 DIANA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2 AGNES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3 KM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4 SC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5 DBSCAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6 batch SOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
7 FKM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
8 EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
9 MVDBSCAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
10 COFC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
11 FCPU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
12 batch-MVADASOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
13 COMRAF* . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
14 COEM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
15 COFKM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
16 COKFKM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
17 Cop K-moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
18 CCHC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
19 EM contraint . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
20 PCKM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
21 SSKM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
22 LLMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
23 BC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
24 BOC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
25 UZABOC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
26 ADAUZABOC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
27 CE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
28 FT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
29 SAMARAH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
30 MOCLE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
31 COALA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
32 ADFT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
33 CAMI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
34 COBOC consensus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
35 COBOC complémentaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
36 ALTERBOC global . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
37 ALTERBOC complémentaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
Bibliographie
[Achtert et al., 2006] Achtert, E., Kriegel, H.-P., Pryakhin, A., and Schubert, M. (2006). Clustering multirepresented
objects using combination trees. In Ng, W. K., Kitsuregawa, M., Li, J., and Chang, K.,
editors, PAKDD, volume 3918 of Lecture Notes in Computer Science, pages 174–178. Springer.
[Aikake, 1973] Aikake, H. (1973). Information theory and an extension of the maximum likelihood principle.
In Petrov, B. N. and Csaki, F., editors, Proceedings of 2nd International Symposium on Information
Theory, pages 267–281. Akademiai Kiado.
[Aupetit, 2006] Aupetit, M. (2006). Learning topology with the generative gaussian graph and the em
algorithm. In Advances in Neural Information Processing Systems, page 2006.
[Bae and Bailey, 2006] Bae, E. and Bailey, J. (2006). Coala: A novel approach for the extraction of an
alternate clustering of high quality and high dissimilarity. In ICDM, pages 53–62. IEEE Computer
Society.
[Basu et al., 2004] Basu, S., Banerjee, A., and Mooney, R. J. (2004). Active semi-supervision for pairwise
constrained clustering. In Berry, M. W., Dayal, U., Kamath, C., and Skillicorn, D. B., editors, SDM.
SIAM.
[Bekkerman and Jeon, 2007] Bekkerman, R. and Jeon, J. (2007). Multi-modal clustering for multimedia
collections. In CVPR.
[Bekkerman et al., 2006] Bekkerman, R., Sahami, M., and Learned-Miller, E. (2006). Combinatorial
Markov Random Fields. In Proceedings of ECML-06, the 17th European Conference on Machine Learning,
pages 30–41.
[Bezdek, 1981] Bezdek, J. C. (1981). Pattern Recognition with Fuzzy Objective Function Algorithms.
Plenum Press, New York.
[Bickel and Scheffer, 2004] Bickel, S. and Scheffer, T. (2004). Multi-view clustering. In Proceedings of
the Fourth IEEE International Conference on Data Mining, ICDM ’04, pages 19–26, Washington, DC,
USA. IEEE Computer Society.
[Bickel and Scheffer, 2005] Bickel, S. and Scheffer, T. (2005). Estimation of mixture models using co-
EM. In 16th European Conference on Machine Learning ECML 2001, volume 3720 of Lecture Notes in
Artificial Intelligence, pages 35–46. Springer.
[Biernacki, 2009] Biernacki, C. (2009). Pourquoi les modèles de mélange pour la classification ? Revue
de MODULAD, (40):1–22.
[Blum and Mitchell, 1998] Blum, A. and Mitchell, T. (1998). Combining labeled and unlabeled data
with co-training. In COLT: Proceedings of the Workshop on Computational Learning Theory, Morgan
Kaufmann Publishers.
[Celeux and Govaert, 1992] Celeux, G. and Govaert, G. (1992). A classification em algorithm for clustering
and two stochastic versions. Comput. Stat. Data Anal., 14(3):315–332.
[Chang and Yeung, 2004] Chang, H. and Yeung, D.-Y. (2004). Locally linear metric adaptation for semisupervised
clustering. In Proceedings of the twenty-first international conference on Machine learning,
ICML ’04, pages 20–, New York, NY, USA. ACM.
[Cleuziou et al., 2009] Cleuziou, G., Exbrayat, M., Martin, L., and Sublemontier, J.-H. (2009). CoFKM :
a Centralized Method for Multiple-View Clustering. In ICDM 2009, The Ninth IEEE International Conference
on Data Mining, pages 752–757, Miami, United States.
222 BIBLIOGRAPHIE
[Dang and Bailey, 2010] Dang, X. H. and Bailey, J. (2010). Generation of alternative clusterings using
the cami approach. In SDM, pages 118–129. SIAM.
[Davidson and Basu, 2007] Davidson, I. and Basu, S. (2007). A survey of clustering with instance level
constraints. In ACM Transactions on Knowledge Discovery from Data, pages 1–41. ACM.
[Davidson and Qi, 2008] Davidson, I. and Qi, Z. (2008). Finding alternative clusterings using
constraints. In ICDM, pages 773–778. IEEE Computer Society.
[Davidson and Ravi, 2005a] Davidson, I. and Ravi, S. S. (2005a). Agglomerative hierarchical clustering
with constraints: Theoretical and empirical results. In Jorge, A., Torgo, L., Brazdil, P., Camacho, R.,
and Gama, J., editors, PKDD, volume 3721 of Lecture Notes in Computer Science, pages 59–70. Springer.
[Davidson and Ravi, 2005b] Davidson, I. and Ravi, S. S. (2005b). Clustering with constraints: Feasibility
issues and the k-means algorithm. In SDM.
[Dempster et al., 1977] Dempster, A., Laird, N., and Rubin, D. (1977). Maximum Likelihood from Incomplete
Data via the EM Algorithm. Journal of Royal Statistical Society B, 39:1–38.
[Dhillon et al., 2005] Dhillon, I. S., Guan, Y., and Kulis, B. (2005). A unified view of kernel k-means,
spectral clustering and graph cuts. Technical Report TR-04-25, University of Texas Dept. of Computer
Science.
[Ding et al., 2005] Ding, C., He, X., and Simon, H. D. (2005). On the equivalence of nonnegative matrix
factorization and spectral clustering. In Proc. SIAM Data Mining Conf, pages 606–610.
[dos S. Dantas and de Carvalho, 2011] dos S. Dantas, A. B. and de Carvalho, F. (2011). Adaptive batch
som for multiple dissimilarity data tables. In ICTAI, pages 575–578. IEEE.
[Ester et al., 1996] Ester, M., Kriegel, H.-P., Sander, J., and Xu, X. (1996). A density-based algorithm for
discovering clusters in large spatial databases with noise. In KDD, pages 226–231.
[Faceli et al., 2009] Faceli, K., de Souto, M. C. P., de Araujo, D. S. A., and de Carvalho, A. C. P. L. F.
(2009). Multi-objective clustering ensemble for gene expression data analysis. Neurocomputing,
72(13-15):2763–2774.
[Forestier, 2010] Forestier, G. (2010). Connaissances et classification multistratégie d’objets complexes
multisources.
[Frey and Dueck, 2007] Frey, B. J. and Dueck, D. (2007). Clustering by passing messages between data
points. Science, 315:2007.
[Gan et al., 2007a] Gan, G., Ma, C., and Wu, J. (2007a). Data clustering - theory, algorithms, and applications.
SIAM.
[Gan et al., 2007b] Gan, G., Ma, C., and Wu, J. (2007b). Grid-based clustering algorithms.
[Grozavu and Bennani, 2010] Grozavu, N. and Bennani, Y. (2010). Topological collaborative clustering.
Australian Journal of Intelligent Information Processing Systems, 12(3). Machine Learning Applications
(Part I).
[Grozavu et al., 2011] Grozavu, N., Ghassany, M., and Bennani, Y. (2011). Learning confidence exchange
in collaborative clustering. In Proceedings of the International Joint Conference on Neural Networks
(IJCNN 2011), pages 872–879, San Jose, California, USA. IEEE.
[Guénoche, 2011] Guénoche, A. (2011). Consensus of partitions : a constructive approach. Adv. Data
Analysis and Classification, 5(3):215–229.
[Heer and Chi, 2002] Heer, J. and Chi, E. H. (2002). Mining the Structure of User Activity using Cluster
Stability. In proceedings of the Web Analytics Workshop, SIAM Conference on Data Mining.
[Jain, 2008] Jain, A. K. (2008). Data clustering: 50 years beyond k-means. In Daelemans, W., Goethals,
B., and Morik, K., editors, ECML/PKDD (1), volume 5211 of Lecture Notes in Computer Science, pages
3–4. Springer.
[Kailing et al., 2004] Kailing, K., Kriegel, H.-P., Pryakhin, A., and Schubert, M. (2004). Clustering multirepresented
objects with noise. In Proceedings of the Pacific-Asia Conference on Knowledge Discovery
and Data Mining, pages 394–403.
BIBLIOGRAPHIE 223
[Karypis and Kumar, 1998] Karypis, G. and Kumar, V. (1998). A fast and high quality multilevel scheme
for partitioning irregular graphs. SIAM JOURNAL ON SCIENTIFIC COMPUTING, 20(1):359–392.
[Kaufman and Rousseeuw, 1990] Kaufman, L. and Rousseeuw, P. J. (1990). Finding Groups in Data. An
Introduction to Cluster Analysis. John Wiley & Sons, Inc.
[Klein et al., 2002] Klein, D., Kamvar, S., and Manning, C. (2002). From instance-level constraints to
space-level constraints: Making the most of prior knowledge in data clustering.
[Kohonen, 1988] Kohonen, T. (1988). Neurocomputing: foundations of research. chapter Self-organized
formation of topologically correct feature maps, pages 509–521. MIT Press, Cambridge, MA, USA.
[Kriegel and Zimek, 2010] Kriegel, H.-P. and Zimek, A. (2010). Subspace Clustering, Ensemble Clustering,
Alternative Clustering, Multiview Clustering: What Can We Learn From Each Other? In Proceedings
of MultiClustKDD.
[Kulis et al., 2005] Kulis, B., Basu, S., Dhillon, I., and Mooney, R. (2005). Semi-supervised graph clustering:
a kernel approach. In ICML ’05: Proceedings of the 22nd international conference on Machine
learning, pages 457–464, New York, NY, USA. ACM.
[Lashkari and Golland, 2008] Lashkari, D. and Golland, P. (2008). Convex clustering with exemplarbased
models. In Platt, J., Koller, D., Singer, Y., and Roweis, S., editors, Advances in Neural Information
Processing Systems 20, pages 825–832. MIT Press, Cambridge, MA.
[Li, 2008] Li, T. (2008). Clustering based on matrix approximation: a unifying view. Knowl. Inf. Syst.,
17(1):1–15.
[Liu et al., 2007] Liu, Y., Jin, R., and Jain, A. K. (2007). Boostcluster: boosting clustering by pairwise
constraints. In Berkhin, P., Caruana, R., and Wu, X., editors, KDD, pages 450–459. ACM.
[Luxburg, 2007] Luxburg, U. (2007). A tutorial on spectral clustering. Statistics and Computing,
17(4):395–416.
[MacQueen, 1967] MacQueen, J. (1967). Some methods for classification and analysis of multivariate
observations. In Proceedings of the Fifth Berkeley Symposium on Mathematical statistics and probability,
volume 1, pages 281–297, Berkeley. University of California Press.
[Martin et al., 2006] Martin, C., grosse Deters, H., and Nattkemper, T. W. (2006). Fusing biomedical
multi-modal data for exploratory data analysis. In ICANN 2006, Part II, LNCS 4132, pages 798–807.
[Mesghouni et al., 2011] Mesghouni, N., Ghedira, K., and Temani, M. (2011). Unsupervised horizontal
collaboration based in som.
[Ng et al., 2001] Ng, A. Y., Jordan, M. I., and Weiss, Y. (2001). On spectral clustering: Analysis and
an algorithm. In ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS, pages 849–856. MIT
Press.
[Pedrycz, 2002] Pedrycz, W. (2002). Collaborative fuzzy clustering. Pattern Recogn. Lett., 23(14):1675–
1686.
[Regnier, 1965] Regnier, S. (1965). Sur quelques aspects mathématiques des problèmes de classification
automatique.
[Reza et al., 2009] Reza, G., Md. Nasir, S., Hamidah, I., and Norwati, M. (2009). A survey: Clustering
ensembles techniques. Proceedings of World Academy of Science, Engineering and Technology, 38:644–
653.
[Schwarz, 1978] Schwarz, G. (1978). Estimating the dimension of a model. The Annals of Statistics,
6:461–464.
[Shental et al., 2003] Shental, N., Hertz, T., Bar-Hillel, A., and Weinshall, D. (2003). Computing gaussian
mixture models with em using side-information. In In Advances in Neural Information Processing
Systems 16. MIT Press.
[Shi and Malik, 2000] Shi, J. and Malik, J. (2000). Normalized cuts and image segmentation. IEEE
Transactions on Pattern Analysis and Machine Intelligence (PAMI).
224 BIBLIOGRAPHIE
[Strehl and Ghosh, 2003] Strehl, A. and Ghosh, J. (2003). Cluster ensembles — a knowledge reuse
framework for combining multiple partitions. J. Mach. Learn. Res., 3:583–617.
[Sublemontier et al., 2009] Sublemontier, J.-H., Cleuziou, G., Exbrayat, M., and Martin, L. (2009). Regroupement
de données multi-représentées : une approche par k-moyenne flou. In EGC 2009, 9è
Journées Francophones Extraction et Gestion des Connaissances, Actes des ateliers, Strasbourg, France.
[Sublemontier et al., 2011a] Sublemontier, J.-H., Cleuziou, G., Exbrayat, M., and Martin, L. (2011a).
Clustering multi-vues : une approche centralisée. Revue des Nouvelles Technologies de l’Information,
numéro spécial Fouille de Données Complexes : données multiples.
[Sublemontier et al., 2011b] Sublemontier, J.-H., Martin, L., Cleuziou, G., and Exbrayat, M. (2011b).
Integrating pairwise constraints into clustering algorithms: optimization-based approaches. In ICDMW
2011, The Eleventh IEEE International Conference on Data Mining Workshops, Vancouver, Canada.
[Sublemontier et al., 2011c] Sublemontier, J.-H., Martin, L., Cleuziou, G., and Exbrayat, M. (2011c).
Intégration de contraintes must-link et cannot-link pour la classification : une approche indépendante
de l’algorithme. In XVIIIèmes Rencontres de la Société Francophone de Classification, pages 153–156,
Orléans, France.
[van Breukelen et al., 1998] van Breukelen, M. P. W., Tax, D. M. J., and den Hartog, J. E. (1998). Handwritten
digit recognition by combined classifiers,. Kybernetika, vol. 34:381–386.
[Vega-Pons and Ruiz-Shulcloper, 2011] Vega-Pons, S. and Ruiz-Shulcloper, J. (2011). A survey of clustering
ensemble algorithms. IJPRAI, 25(3):337–372.
[Wagstaff and Cardie, 2000] Wagstaff, K. and Cardie, C. (2000). Clustering with instance-level
constraints. In Proceedings of the Seventeenth International Conference on Machine Learning, pages
1103–1110.
[Wagstaff et al., 2001] Wagstaff, K., Cardie, C., Rogers, S., and Schrödl, S. (2001). Constrained k-means
clustering with background knowledge. In Proceedings of the Eighteenth International Conference on
Machine Learning, ICML ’01, pages 577–584, San Francisco, CA, USA. Morgan Kaufmann Publishers
Inc.
[Wemmert et al., 2000] Wemmert, C., Gançarski, P., and Korczak, J. J. (2000). A collaborative approach
to combine multiple learning methods. International Journal on Artificial Intelligence Tools, 9(1):59–
78.
[Wiswedel and Berthold, 2007] Wiswedel, B. and Berthold, M. R. (2007). Fuzzy clustering in parallel
universes. Int. J. Approx. Reasoning, 45(3):439–454.
[Xing et al., 2002a] Xing, E. P., Ng, A. Y., Jordan, M. I., and Russell, S. (2002a). Distance metric learning,
with application to clustering with side-information. In Advances in Neural Information Processing
Systems 15, pages 505–512. MIT Press.
[Xing et al., 2002b] Xing, E. P., Ng, A. Y., Jordan, M. I., and Russell, S. J. (2002b). Distance metric
learning with application to clustering with side-information. In Becker, S., Thrun, S., and Obermayer,
K., editors, NIPS, pages 505–512. MIT Press.
[Yamanishi et al., 2004] Yamanishi, Y., p. Vert, J., and Kanehisa, M. (2004). Protein network inference
from multiple genomic data: a supervised approach. Bioinformatics, 20(1):i363–i370.
[Zadeh, 1965] Zadeh, L. A. (1965). Fuzzy sets. Information and Control, 8(3):338–353.
[Zeng et al., 2010] Zeng, E., Yang, C., Li, T., and Narasimhan, G. (2010). Clustering genes using heterogeneous
data sources. IJKDB, 1(2):12–28.
[Zhang et al., 2003] Zhang, Z., Kwok, J. T., and Yeung, D.-Y. (2003). Parametric distance metric learning
with label information. In In Proceedings of the Eighteenth International Joint Conference on Artificial
Intelligence, pages 1450–1452.
Jacques-Henri SUBLEMONTIER
Classification non supervisée :
de la multiplicité des données à la multiplicité des analyses
Résumé : La classification automatique non supervisée est un problème majeur, aux frontières de
multiples communautés issues de l’Intelligence Artificielle, de l’Analyse de Données et des Sciences de la
Cognition. Elle vise à formaliser et mécaniser la tâche cognitive de classification, afin de l’automatiser
pour la rendre applicable à un grand nombre d’objets (ou individus) à classer. Des visées plus applicatives
s’intéressent à l’organisation automatique de grands ensembles d’objets en différents groupes
partageant des caractéristiques communes. La présente thèse propose des méthodes de classification
non supervisées applicables lorsque plusieurs sources d’informations sont disponibles pour compléter
et guider la recherche d’une ou plusieurs classifications des données. Pour la classification non supervisée
multi-vues, la première contribution propose un mécanisme de recherche de classifications
locales adaptées aux données dans chaque représentation, ainsi qu’un consensus entre celles-ci. Pour
la classification semi-supervisée, la seconde contribution propose d’utiliser des connaissances externes
sur les données pour guider et améliorer la recherche d’une classification d’objets par un algorithme
quelconque de partitionnement de données. Enfin, la troisième et dernière contribution propose un
environnement collaboratif permettant d’atteindre au choix les objectifs de consensus et d’alternatives
pour la classification d’objets mono-représentés ou multi-représentés. Cette dernière contribution répond
ainsi aux différents problèmes de multiplicité des données et des analyses dans le contexte de la
classification non supervisée, et propose, au sein d’une même plate-forme unificatrice, une proposition
répondant à des problèmes très actifs et actuels en Fouille de Données et en Extraction et Gestion des
Connaissances.
Mots clés : Intelligence Artificielle, Apprentissage automatique, Classification non supervisée, Données
multi-vues, Consensus de partitions, Co-Apprentissage, Recherche d’alternatives.
Clustering :
from multiple data to multiple analysis
Abstract: Data clustering is a major problem encountered mainly in related fields of Artificial Intelligence,
Data Analysis and Cognitive Sciences. This topic is concerned by the production of synthetic tools
that are able to transform a mass of information into valuable knowledge. This knowledge extraction
is done by grouping a set of objects associated with a set of descriptors such that two objects in a same
group are similar or share a same behaviour while two objects from different groups does not. This
thesis present a study about some extensions of the classical clustering problem for multi-view data,
where each datum can be represented by several sets of descriptors exhibing different behaviours or
aspects of it. Our study impose to explore several nearby problems such that semi-supervised clustering,
multi-view clustering or collaborative approaches for consensus or alternative clustering. In a
first chapter, we propose an algorithm solving the multi-view clustering problem. In the second chapter,
we propose a boosting-inspired algorithm and an optimization based algorithm closely related to
boosting that allow the integration of external knowledge leading to the improvement of any clustering
algorithm. This proposition bring an answer to the semi-supervised clustering problem. In the
last chapter, we introduce an unifying framework allowing the discovery even of a set of consensus
clustering solution or a set of alternative clustering solutions for mono-view data and or multi-view
data. Such unifying approach offer a methodology to answer some current and actual hot topic in
Data Mining and Knowledge Discovery in Data.
Keywords: Artificial Intelligence, Machine Learning, Clustering, Multi-view data, Clustering ensemble,
Co-Training, Alternative clustering.
Laboratoire d’Informatique Fondamentale d’Orléans
Bâtiment 3IA, rue Léonard de Vinci, B.P. 6759
45067 ORLEANS cedex 2, FRANCE